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es 本 书 是 经 典 著作 《Linux 设备 驱 动 程序 》 的 第 三 版 。 如 果 您 希望 在 Linux 操作 系统 上 支持 计算 
Ny | 机 外 部 设备 . 或 者 在 Linux 上 运行 新 的 硬件 ,或 者 只 是 希望 一 般 性 地 了 解 Linux 内 核 的 编程 ， 
| 就 一 定 要 阅读 本 书 。 本 书 描述 了 如 何 针对 各 种 设备 编写 驱动 程序 、 而 在 过 去 ， 这 些 内 容 仅仅 
以 口头 形式 交流 ， 或 者 零星 出 现在 神秘 的 代码 注释 中 “ 

本 书 的 作者 均 是 Linux 社区 的 领导 者 。Jonathan Corbet 虽 不 是 专职 的 内 核 代码 贡献 者 , 但 他 是 备 受 关注 
的 LWN.net 新 闻 及 信息 网 站 的 执行 编辑 。Alessandro Rubini 是 一 名 Linux 代码 贡献 者 ， 也 是 活跃 的 意 大 
利 Linux 社区 的 灵魂 人 物 。Greg Kroah-Hartman 是 目前 内 核 中 USB、PCI 和 驱动 程序 核心 子 系统 (本 书 
均 有 讲述 ) 的 维护 者 。 

本 书 的 这 个 版 本 已 针对 Linux 内 核 的 2.6.10 版 本 彻底 更 新 过 了 , 内核 的 这 个 版 本 针对 常见 任务 完成 了 合理 化 
设计 及 相应 的 简化 , 如 即 插 即 用 、 利 用 sysfs 文 件 系统 和 用 户 空 间 交 互 , 以 及 标准 总 线 上 的 多 设备 管理 等 等 。 
要 阅读 并 理解 本 书 ， 您 不 必 首 先 成 为 内 核 黑客 ; 只 要 您 理解 C 语言 并 具有 Unix 系统 调用 的 一 些 背景 知识 
即 可 。 您 将 学 到 如 何 为 字符 设备 、 块 设备 和 网 络 接口 编写 驱动 程序 。 为 此 ， 本 书 提供 了 完整 的 示例 程序 ， 
您 不 需要 特殊 的 硬件 即 可 编译 和 运行 这 些 示 例 程 序 。 本 书 还 在 单独 的 章节 中 讲述 了 PCI、USB 和 tty ( 终 
端 ) 子 系统 。 对 期 望 了 解 操作 系统 内 部 工作 原理 的 读者 来 讲 ， 本 书 也 深入 曾 述 了 地 址 空间 、 异 步 事件 以 及 
IO 等 方面 的 内 容 。 

本 书 涵盖 的 主题 包括 : 

. 完整 的 字符 、 块 、tty (终端 ) 及 网 络 驱 动 程序 

. 驱动 程序 的 调试 

。 ”中断 

。 ”计时 问题 

。 并发、 锁定 和 对 称 多 处 理 器 系统 (SMP) 

。 ”内 存 管理 和 DMA 

。 ”驱动 程序 模型 和 sysfs 

。 执 插 拔 设 备 

。 对 常见 总 线 的 描述 、 包括 SCSI、PCI、USB 和 IEEE1394 (火线 ) 
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顾名思义 ， 本 书 是 讲述 如 何 编写 Linux 设备 驱动 程序 的 。 面 对 层出不穷 的 新 硬件 产品 ， 
必须 有 人 不 断 编写 新 的 驱动 程序 以 便 让 这 些 设备 能 够 在 Linux 下 正常 工作 , 从 这 个 意义 
上 讲 , 讲述 驱动 程序 的 编写 本 身 就 是 一 件 非常 有 意义 的 工作 。 但 本 书 也 涉及 到 Linux 内 
核 的 工作 原理 ， 同 时 还 讲述 如 何 根据 自己 的 需要 和 兴趣 来 定制 Linux 内 核 。Linux 是 一 
个 开放 的 系统 ， 我 们 希望 借助 本 书 使 它 能 够 更 加 开放 ， 从 而 能 够 吸引 更 多 的 开发 人 员 。 


本 书 是 《Linux 设备 驱动 程序 》 的 第 三 版 。 自 本 书 第 一 版 发 行 以 来 ， 内 核 已 经 发 生 了 巨 
大 变化 ,我 们 必须 努力 让 本 书 跟 上 内 核 的 发 展 步伐 。 在 这 一 版 本 中 , 我 们 尽 可 能 完整 地 
描述 了 2.6.10 内 核 。 这 次 , 我 们 决定 略 去 针对 先前 内 核 版 本 的 向 后 兼容 性 描述 ,这 是 因 
为 从 2.4 以 来 内 核发 生 的 改变 实在 太 大 了 , 而 针对 2.4 内 核 的 接口 描述 在 本 书 第 二 版 (可 
免费 获得 ) 中 有 很 好 的 阐述 。 


这 一 版 本 包括 了 一 些 2.6 内 核 相关 的 新 内 容 。 关 于 锁 和 并 发 性 的 内 容 得 到 了 进一步 充实 ， 
而 且 单 独 成 章 。 我 们 还 详细 描述 了 2.6 内 核 中 新 引入 的 Linux 设备 模型 。 我 们 用 新 的 章 
节 来 描述 USB 总 线 和 串 行 驱动 程序 子 系统 ; 同时 , 讲述 PCI 的 那 一 章 也 得 到 了 加 强 。 本 
书 其 余部 分 类 似 先前 的 版 本 ， 但 儿 平 每 一 章 都 彻底 更 新 过 了 。 


我 们 希望 读者 能 够 从 本 书 的 学 习 中 获得 乐趣 ,就 像 我们 自己 从 编写 本 书 的 过 程 中 获得 乐 
趣 一 样 。 


Jon 的 介绍 


这 个 版 本 出 版 的 时 候 , 恰好 我 在 Linux 界 工作 了 12 年 ， 更 惊人 的 是 恰好 是 我 在 计算 机 领 
域 工作 的 第 25 个 年 头 。1980 年 时 ， 计 算 机 领域 就 已 经 是 个 快速 发 展 的 领域 ， 然 而 此 后 
又 加 速 不 少 。 让 本 书 保持 更 新 状态 面临 越 来 越 大 的 挑战 ; Linux 内 核 黑 客 在 不 停 地 增强 
他 们 的 代码 ， 但 很 少 有 耐心 去 关心 文档 是 否 跟 得 上 步伐 。 
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在 市 场 上 Linux 保 持 着 成 功 , 但 更 重要 的 是 Linux 赢得 了 全 球 开发 人 员 的 关注 。 很 明显 ， 
Linux 的 成 功 证 明了 其 优秀 的 技术 质量 以 及 自由 软件 的 大 量 好 处 。 但 在 我 看 来 ， 其 成 功 
的 真正 关键 在 于 如 下 事实 : Linux 将 快乐 重新 带 回 到 计算 机 领域 。 利 用 Linux, 任何 人 可 
以 了 解 系统 并 以 任何 可 能 的 方式 贡献 自己 的 代码 , 当然 , 代码 在 技术 上 的 优势 是 其 中 最 
有 价值 的 。Linux 不 仅 为 我 们 提供 了 一 个 顶级 质量 的 操作 系统 ， 而 且 也 为 我 们 提供 了 参 
与 到 其 未 来 开发 过 程 的 机 会 ， 我 们 完全 可 以 从 中 得 到 无 尽 的 快乐 。 


在 计算 机 领域 的 25 年 中 , 我 曾经 有 过 许多 有 意思 的 经 历 ， 从 第 一 次 为 Cray 计算 机 编程 
(用 Fortran 语 言 在 纸 带 上 打 孔 ), 到 亲历 迷你 计算 机 和 Unix 工作 站 的 变迁 , 一 直到 当前 
微 处 理 器 占 支配 地 位 的 时 代 。 我 还 没有 看 到 哪个 领域 可 以 让 人 如 此 着 迷 并 因此 开心 快乐 ， 
也 从 未 有 过 像 现 在 这 样 能 够 完全 控制 我 们 的 工具 及 其 发 展 的 时 候 。 很 明显 ，Linux 和 自 
由 软件 是 这 些 变化 背后 的 驱动 力 。 


我 希望 本 书 能 将 这 种 快乐 和 机 会 带 给 新 的 Linux 开 发 人 员 。 不 管 你 的 兴趣 在 内 核 级 还 是 
用 户 空间 , 我 都 希望 本 书 是 一 本 有 用 而 且 有 趣 的 指南 , 它 能 够 帮助 读者 发 现 内 核 是 如 何 
和 硬件 一 同 工 作 的 。 我 希望 本 书 能 帮助 和 启发 读者 利用 自己 的 编辑 器 让 我 们 共享 的 、 自 
由 的 操作 系统 更 加 美好 ! Linux 已 经 走 过 了 很 长 的 路 , 然而 此 刻 也 正 是 起 点 , 观察 并 参 
与 其 中 将 为 你 带 来 更 大 的 乐趣 。 


Alessandro 的 介绍 


我 一 直 喜 欢 玩 电 脑 ， 就 因为 通过 电脑 我 可 以 控制 外 部 的 硬件 。 我 曾 为 Apple II 和 ZX 
Spectrum 系统 焊接 我 自己 的 设备 , 之 后 , 有 了 大 学 中 学 到 的 Unix 和 自由 软件 专业 知识 ， 
通过 在 新 的 386 系统 上 安装 了 GNU/Linux 并 再 次 玩 起 了 自己 的 电路 板 ， 我 逃离 了 DOS 
陷阱 。 


那 时 Linux 社区 还 非常 小 , 也 没有 太 多 的 文档 来 描述 如 何 编写 驱动 程序 ,于 是 我 开始 为 
《Linux Journal》 扎 稿 。 这 就 是 事情 的 开端 : 当 我 发 现 我 自己 不 喜欢 撰写 论文 后 ， 我 离 
开 了 大 学 ， 并 和 O'Reilly 签订 了 本 书 第 一 版 的 编写 合同 。 


这 是 1996 年 的 事情 ， 已 经 过 去 好 多 年 了 。 


现在 , 计算 机 世界 已 经 大 不 相同 了 : 自由 软件 已 经 成 为 一 种 可 行 方案 , 不 论 在 技术 上 还 
是 在 政治 上 , 然而 在 这 两 个 领域 仍然 有 许多 工作 要 做 。 我 希望 本 书 能 够 促进 如 下 两 个 目 
标的 实现 : 传播 技术 知识 并 提高 对 传播 知识 必要 性 的 认同 。 这 也 是 本 书 第 一 版 被 大 众 广 
泛 接 受 以 来 第 二 版 的 两 位 作者 在 编辑 和 出 版 商 的 支持 下 转向 自由 许可 证 的 原因 。 我 坚信 
这 是 正确 的 知识 传播 途径 ， 并 且 有 利于 和 认同 这 种 观点 的 其 他 人 合作 。 
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在 嵌入 式 领 域 中 所 发 生 的 一 切 令 我 兴奋 , 我 希望 本 书 能 够 为 Linux 的 应 用 推波助澜; 然 
而 ， 在 今天 这 个 时 代 ， 思 想 的 变化 尤其 迅速 ,为 第 四 版 作 计划 的 时 间 已 经 到 来 , 我 们 也 
正在 寻求 第 四 位 作者 的 帮助 。 


Greg 的 介绍 

从 为 了 编写 一 个 真实 的 Linux 驱动 程序 而 拿 起 《Linux 设备 驱动 程序 》 第 一 版 到 现在 , 已 
经 过 很 长 一 段 时 间 。 本 书 第 一 版 帮助 我 理解 了 Linux 操 作 系统 的 内 部 细节 , 而 在 此 之 前 ， 
我 使 用 该 操作 系统 有 很 长 的 时 间 , 但 几乎 没有 时 间 来 研究 内 核 细节 。 有 了 第 一 版 中 获得 
的 知识 , 加 上 阅读 内 核 中 其 他 程序 员 的 代码 , 我 的 第 一 个 充满 缺陷 、 非 SMP 安 全 的 哎 动 
程序 被 内 核 社区 接受 , 并 加 入 到 了 内 核 代码 的 主 分 支 中 。 尽管 在 五 分 钟 之 后 我 就 收 到 了 
我 的 第 一 个 缺陷 报告 , 但 自 此 我 就 被 希望 尽 我 所 能 使 Linux 操作 系统 成 为 最 好 的 欲望 吸 
引 住 了 。 


我 非常 荣幸 能 够 为 本 书 贡献 一 些 东西 。 我 希望 本 书 能 够 帮助 其 他 人 掌握 与 内 核 相关 的 一 
些 细节 ,你 会 发 现 驱动 程序 的 开发 并 不 像 想 像 的 那么 可 怕 或 吓人 ,当然 ,我 也 希望 本 书 
能 够 鼓励 其 他 人 加 入 或 者 帮助 这 个 大 的 集体 ,以便 让 这 个 操作 系统 可 以 在 每 一 个 计算 机 
平台 上 运行 ， 并 支持 每 一 种 可 获得 的 设备 。 开 发 过 程 充 满 着 乐趣 ， 加 入 社区 非常 值得 ， 
因为 每 个 人 都 能 从 努力 付出 中 获得 好 处 。 


现在 , 让 我 们 一 起 寻找 这 个 版 本 的 缺陷 , 修改 API 以 便 让 它们 更 好 地 工作 , 或 者 更 加 简 
单 而 便于 每 个 人 理解 ， 或 者 增加 新 的 特性 。 来 吧 ， 参 与 其 中 我 们 也 将 得 到 他 人 的 帮助 。 


本 书 的 读者 对 象 

本 书 对 那些 希望 编写 计算 机 设备 驱动 程序 的 人 员 、 或 者 那些 要 解决 Linux 机 器 内 部 问题 
的 程序 员 来 讲 , 将 是 非常 有 帮助 的 。 请 注意 ,“Linux 机 器 ”是 一 个 比 “ 运 行 Linux 的 PC” 
更 为 宽泛 的 概念 ， 因 为 Linux 现在 能 够 支持 许多 不 同 的 硬件 平台 , 而 内 核 编程 不 再 绑 定 
到 某 个 特定 的 平台 。 我 们 希望 本 书 能 够 成 为 那些 想 成 为 内 核 黑 客 但 却 不 知 如何 下 手 的 人 
们 的 良好 起 点 。 


在 技术 方面 , 本 书 为 理解 内 核 内 幕 以 及 理解 一 些 Linux 开发 者 所 做 出 的 设计 决策 支 了 一 
招 。 尽管 本 书 的 主要 目的 是 告诉 读者 如 何 编写 设备 驱动 程序 , 但 同时 也 给 出 了 内 核实 现 
方面 的 概览 。 


尽管 真正 的 黑客 能 够 从 正式 的 内 核 源 代码 中 找到 所 有 必要 的 信息 , 但 通常 来 讲 , 编写 好 
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的 书籍 能 够 更 好 地 帮助 读者 提高 编程 技巧 。 读 者 将 要 看 到 的 文字 来 自 对 内 核 源 代码 的 仔 
细 分 析 ， 我 们 希望 我 们 所 付出 的 努力 是 值得 的 。 


Linux 发 烧 友 可 从 本 书 找到 深入 内 核 代 码 的 足够 精神 食粮 ; 通过 本 书 的 学 习 ， 将 有 能 力 
加 入 到 为 某 个 新 功能 或 性 能 增强 不 停工 作 的 开发 小 组 当中 。 本 书 并 没有 涵盖 Linux 内 核 
的 全 部 , 但 是 作为 Linux 设备 驱动 程序 开发 人 员 , 你 需要 的 是 了 解 如 何 与 许多 的 内 核子 
系统 一 起 工作 。 因 此 ， 本 书 对 内 核 编程 作 了 一 个 一 般 性 的 介绍 。Linux 仍然 在 不 断 改进 
和 发 展 ， 因 此 新 程序 员 始 终 有 机 会 加 入 到 这 一 Linux 的 开发 大 军 中 。 


另 一 方面 , 如 果 你 只 是 为 了 给 自己 的 设备 编写 一 个 驱动 程序 , 而 不 想 过 多 了 解 内 核 的 内 
幕 信息 , 本 书 内 容 则 足够 模块 化 以 满足 你 的 需求 。 如 果 你 不 想 深 入 到 细节 当中 , 则 可 以 
跳 过 大 部 分 的 技术 章节 , 而 直接 阅读 可 由 设备 驱动 程序 使 用 的 、 能 够 和 内 核 的 其 他 部 分 
无 颖 结合 的 标准 API。 


内 容 的 组 织 

本 书 内 容 由 简 到 难 , 并 划分 为 两 大 部 分 。 第 一 部 分 (第 一 章 到 第 十 一 章 ) 首先 讲述 了 如 
何 编写 内 核 模 块 ,然后 讲述 了 编写 功能 完备 的 字符 设备 驱动 程序 所 涉及 的 各 个 编程 主题 。 
每 一 章 讲述 一 个 特定 问题 ， 并 在 每 章 结 尾 包含 一 个 “快速 小 结 "， 该 “快速 小 结 ”可 在 
实际 开发 中 作为 参考 使 用 。 


在 本 书 第 一 部 分 中 , 内 容 从 面向 软件 的 概念 过 渡 到 硬件 相关 的 概念 。 这 种 组 织 方 法 意味 
着 你 能 够 尽 可 能 不 在 机 器 中 插入 任何 外 部 硬件 而 测试 示例 代码 。 每 章 都 包含 有 源 代码 ， 
并 给 出 了 能 够 在 任意 一 台 Linux 计算 机 上 运行 的 示例 驱动 程序 。 但是, 在 第 十 章 和 第 十 
一 章 中 , 我 们 需要 读者 在 并 口上 连接 一 些 电 线 ， 以 便 测试 硬件 处 理 代码 ， 当 然 ， 这 一 要 
求 对 任何 人 来 讲 都 是 可 以 做 到 的 。 


本 书 的 第 二 部 分 (第 十 二 章 到 第 十 八 章 ) 讲述 了 块 设备 凤 动 程序 和 网 络 接口 ,并 深入 讨 
论 了 一 些 更 加 高 级 的 内 容 ， 比 如 虚拟 内 存 子 系统 和 PCI、USB 总 线 等 。 许 多 驱动 程序 作 
者 可 能 不 需要 这 些 内 容 , 但 我 们 鼓励 你 阅读 这 些 章 节 。 尽管 对 某 个 特定 的 项 目 来 说 你 并 
不 需要 了 解 这 些 知 识 ， 但 第 二 部 分 的 许多 内 容 和 了 解 Linux 内 核 的 工作 原理 一 样 重要 。 


背景 信息 


为 了 更 好 地 利用 本 书 ， 我 们 希望 读者 熟悉 C 语言 编程 。 因 为 我 们 经 常会 提 到 Unix 系统 
调用 、 命 令 和 管道 ， 因 此 也 需要 读者 拥有 Unix 的 使 用 经 验 。 
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在 硬件 级 ,不 需要 读者 有 任何 预先 的 经 验 就 可 以 理解 本 书 内 容 ， 当然, 一 些 一 般 性 的 概 
念 是 必须 清楚 的 。 本 书 内 容 并 不 基于 某 个 特定 的 PC 硬件 ， 我 们 在 提 到 某 个 特定 的 硬件 
时 会 提供 给 读者 所 有 必要 的 信息 。 


构造 内 核 需 要 一 些 自由 软件 工具 , 而 且 经 常 要 求 使 用 这 些 工具 的 特定 版 本 。 太 老 的 工具 
可 能 缺少 一 些 必 要 的 特性 , 而 太 新 的 工具 又 可 能 会 偶尔 生成 不 能 正常 工作 的 内 核 。 通常 
而 言 ， 当 前 流行 的 Linux 发 行 版 所 提供 的 工具 能 够 很 好 地 工作 。 不 同 的 内 核 版 本 对 工具 
的 版 本 需求 不 同 ， 这 时 ， 你 可 以 参考 内 核 源 代码 树 中 的 Documentation/Changes 文件 。 


在 线 版 本 和 条 款 


本 书 作者 已 经 选择 本 书 在 Creative Commons “Attribution-ShareAlike” 许 可 证 版 本 2.0 
的 保护 下 免费 获得 : 


http://www’.oreilly.com/catalog/linuxdrive3 


排版 约定 
下 面 是 本 书 中 用 到 的 一 些 排 版 约定 : 
斜体 (ltalic) 
用 于 文件 和 目录 的 名 称 、 程 序 和 命令 的 名 称 、 命 令 行 选项 、URL 以 及 新 的 术语 
等 宽 字 体 (Constant Width) 


用 于 在 示例 中 显示 文件 内 容 或 者 命令 的 输出 ,还 用 于 正文 中 出 现 的 C 代 码 或 者 其 他 
字符 串 
等 宽 斜 体 (Constant midth Italic) 
用 于 可 变 选 项 、 关 键 词 或 者 需要 用 户 用 实际 值 替换 的 文字 
等 宽 黑体 (Constant Wiath Bold) 
用 于 示例 中 需要 用 户 照 原文 键入 的 命令 或 者 其 他 文字 


代码 示例 的 使 用 


本 书 用 于 帮助 读者 完成 自己 的 任务 。 通常 来 讲 , 读者 可 以 在 自己 的 程序 和 文档 中 使 用 本 
书 中 的 代码 。 示 例 代 码 采 用 BSD/GPL 双 许 可 证 发 布 。 
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我 们 希望 (但 并 不 要 求 ) 你 在 代码 中 增加 归属 信息 。 归 属 信息 通常 包含 标题 、 作 者 、 出 
版 商 以 及 ISBN。 比 如 : “Linux Device Drivers, Third Edition, by Jonathan Corbet, 
Alessandro Rubini, and Greg Kroah-Hartman. Copyright 2005 O'Reilly Media, Inc., 0- 
596-00590-3.” 


意见 和 建议 
请 将 有 关 本 书 的 评论 和 问题 发 送 给 出 版 商 ， 联 系 方法 如 下 : 
美国 : 
O'Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 
中 国 : 
100080 北京 市 海淀 区 知春 路 49 号 希 格 玛 公寓 B 座 809 室 
奥 菜 理 软 件 (北京 ) 有 限 公司 
我 们 还 为 本 书 建立 了 一 个 网 页 ， 其 中 列 出 了 勘误 、 示 例 等 内 容 。 该 网 页 地 址 如 下 : 


http://www.oreilly.comicatalog/linuxdrive3 


如 果 你 希望 对 本 书 进行 评论 ， 或 者 遇 到 有 关 本 书 的 技术 问题 ， 可 发 电子 邮件 到 : 
info@mail.oreilly.com.cn 


bookquestions@oreilly.com 
有 关 O'Reilly 的 更 多 信息 ， 包 括 图 书 、 会 议 、 资 源 中 心 以 及 O'Reilly Network， 可 访问 
我 们 的 Web 站 点 : 


htip://www.oreilly.com 


htip://www.oreilly.com.cn 


Safari Enabled 


ri 如 果 你 在 自己 喜欢 的 技术 书籍 封面 上 看 到 Safari@ Enabled 标识 ， 则 说 明 
BOOKS ONLINE 本 书 可 通过 O'Reilly Network Safari Bookshelf 在 线 获 得 。 


Safari 提供 了 比 电子 书 更 好 的 一 种 方案 。 它 是 一 种 虚拟 图 书馆 ， 可 让 读者 轻松 搜索 大 量 
的 顶级 技术 书籍 、 剪 切 和 粘贴 代码 示例 、 下 载 图 书 章 节 并 在 需要 最 精确 和 最 新 的 信息 时 
快速 找到 答案 。 请 点 击 http://safari.oreilly.com 免费 尝试 。 








本 书 的 编写 得 到 了 许多 人 的 帮助 , 我 们 向 他 们 致 以 诚挚 的 谢意 , 是 他 们 的 帮助 使 本 书 得 
以 出 版 。 


首先 感谢 我 们 的 编辑 Andy Oram, 通过 他 的 努力 本 书 才 变 成 更 好 的 产品 。 当 然 我 们 还 要 
感谢 那些 建立 当前 自由 软件 时 代 的 哲学 和 实践 基础 的 人 物 。 


本 书 第 一 版 由 Alan Cox 、Greg Hankins、Hans Lermen、Heiko Eissfeldt 以 及 Miguel 
de Icaza (依照 名 字 字 母 排序 ) 进行 了 技术 审 校 。 第 二 版 的 技术 审 校 是 Allan B. Cruse、 
Christian Morgner、Jake Edge、Jeff Garzik、Jens Axboe, Jerry Cooperstein、Jerome 
Peter Lynch、Michael Kerrisk、Paul Kinzelman 和 Raph Levien。 第 三 版 的 技术 审 校 是 
Allan B. Cruse、Christian Morgner、James Bottomley、Jerry Cooperstein 、Patrick 
Mochel、Paul Kinzelman 以 及 Robert Love。 他 们 花费 了 大 量 精力 寻找 本 书 的 错误 或 者 
问题 ， 并 且 指 出 了 文中 可 以 提高 的 地 方 。 


最 后 ,让 我 们 感谢 Linux 开发 人 员 所 做 出 的 艰苦 工作 。 这 包括 内 核 程序 员 以 及 经 常会 被 
遗忘 的 应 用 软件 开发 人 员 。 本 书 中 , 我 们 选择 不 提 到 他 们 的 名 字 , 以 避免 因为 遗忘 其 他 
人 的 名 字 而 显得 不 公平 。 当 然 也 有 例外 ， 我 们 会 提 到 Linus 的 名 字 ， 希望 他 不 会 介意 。 


Jon 


我 首先 感谢 我 的 妻子 Laura 和 我 的 孩子 Michele 和 Giulia, 在 我 为 这 个 版 本 工作 的 时 候 ， 
他 们 让 我 的 生命 充满 了 快乐 和 幸福 的 感觉 .LWN.net 的 订阅 者 们 也 通过 他 们 的 怀 慨 和 无 
私 帮助 我 完成 了 这 一 工作 。Linux 内 核 开发 者 为 我 提供 了 很 好 的 服务 ， 他 们 让 我 成 为 他 
们 社区 的 一 员 , 回答 我 的 问题 并 在 我 困惑 时 扫 清 障碍 。 我 也 要 感谢 来 自 世 界 各 地 读者 的 
关于 本 书 第 二 版 的 评论 ， 这 些 评 论 让 我 高 兴 并 受到 敲 舞 。 我 尤其 要 感谢 Alessandro 
Rubini 在 第 一 版 时 启动 这 项 编写 工作 (并 一 直 持续 到 现在 这 个 版 本 ), 还 有 Greg Kroah- 
Hartman ， 他 为 很 多 章节 带 来 了 相当 好 的 编写 技巧 ， 并 获得 了 很 好 的 效果 。 


Alessandro 


我 要 感谢 促成 本 书 的 那些 人 。 首先 要 感谢 的 是 Federica, 在 我 们 的 蜜月 期 间 当 我 在 帐 血 
中 于 笔记 本 电脑 上 审 校本 书 第 一 版 时 ， 她 给 予 了 我 充分 的 理解 和 支持 。 我 还 要 感谢 
Giorgio 和 Giulia, 他 们 卷 人 了 本 书后 面 版 本 的 编写 , 并 乐于 接受 成 为 一 个 经 常 开 夜 车 的 
“ 角 马 (gnu)” 的 儿子 。 我 还 要 感谢 许多 自由 软件 作者 ， 他 们 让 自己 的 作品 供 任何 人 研 
究 ， 从 而 教会 了 我 如 何 编程 。 对 这 个 版 本 而 言 , 我 尤其 感谢 Jon 和 Greg， 他 们 已 成 为 整 
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个 编写 工作 的 主要 伙伴 ; 没有 他 们 中 的 任何 一 个 人 , 编写 工作 都 不 可 能 完成 , 因为 代码 
库 越 来 越 大 且 越 来 越 艰 涩 ， 而 我 的 时 间 却 越 来 越 少 。Jon 是 这 一 版 本 的 主要 领导 ， 而 他 
们 两 位 在 SMP 和 数字 计算 器 上 的 专业 知识 也 大 大 弥补 了 我 在 编程 技术 上 的 不 足 。 


Greg 


我 要 感谢 我 的 妻子 Shannon 和 我 的 孩子 Madeline 和 Griffin ， 他 们 对 我 的 工作 给 予 了 理 
解 和 忍耐 。 如 果 没 有 他 们 支持 我 最 初 在 Linux 上 的 开发 ,那么 我 根本 没有 机 会 来 完成 这 
本 书 的 编写 工作 。 我 也 要 感谢 Alessandro 和 Jon， 他 们 为 我 提供 了 编写 本 书 的 机 会 ,我 
也 很 荣幸 能 够 参与 其 中 。 我 还 要 囊 心 感谢 Linux 内 核 程序 员 ， 他 们 无 私 奉献 的 代码 使 得 
我 和 其 他 人 有 机 会 通过 阅读 而 受益 。 当 然 , 我 还 要 感谢 发 送 给 我 缺陷 报告 、 批 评 我 的 代 
码 、 指 出 我 的 转 春 做 法 的 人 , 他 们 教会 了 我 如 何 成 为 一 名 更 好 的 程序 员 , 通过 这 些 使 得 
我 非常 骄傲 成 为 社区 的 一 份子 。 感 谢 你 们 ! 
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以 Linux 为 代表 的 众多 自由 操作 系统 有 许多 优点 , 其 中 之 一 就 是 它们 的 内 部 实现 细节 对 
所 有 人 来 讲 都 是 公开 的 。 原 先 ,操作 系统 的 代码 仅仅 掌握 在 少数 程序 员 手 中 , 模糊 而 神 
秘 , 但 现在 任何 人 只 要 具备 必要 的 技术 能 力 即 可 方便 地 验证 、 理 解 和 修改 操作 系统 。 在 
让 操作 系统 民主 化 的 进程 中 , Linux 发 挥 了 重要 作用 。Linux 内 核 由 大 量 而 且 复杂 的 代码 
组 成 , 但 是 希望 成 为 内 核 黑 客 的 人 需要 一 个 人 口 , 通过 这 个 人 口 他 们 能 够 方便 地 参与 到 
Linux 内 核 开发 而 不 会 被 内 核 代 码 的 复杂 性 淹没 。 通 常 ， 设 备 驱动 程序 就 是 这 个 进入 
Linux 内 核 世界 的 大 门 。 


设备 驱动 程序 在 Linux 内 核 中 扮演 着 特殊 的 角色 。 它 们 是 一 个 个 独立 的 “ 黑 盒 子 ”,， 使 某 
个 特定 硬件 响应 一 个 定义 良好 的 内 部 编程 接口 ， 这 些 接口 完全 隐藏 了 设备 的 工作 细节 。 
用 户 的 操作 通过 一 组 标准 化 的 调用 执行 , 而 这 些 调用 独立 于 特定 的 驱动 程序 。 将 这 些 调 
用 映射 到 作用 于 实际 硬件 的 设备 特有 操作 上 , 则 是 设备 驱动 程序 的 任务 。 这 个 编程 接口 
能 够 使 得 驱动 程序 独立 于 内 核 的 其 他 部 分 而 建立 , 必要 的 情况 下 可 在 运行 时 “插入 ”内 
核 。 这 种 模块 化 的 特点 使 得 Linux 驱动 程序 的 编写 非常 简单 ,因此 内 核 驱 动 程序 的 数目 
也 迅速 增长 ， 目 前 已 有 成 百 上 千 的 驱动 程序 可 用 。 


促使 我 们 对 Linux 驱动 程序 的 编写 感 兴趣 的 原因 有 很 多 。 首先 , 仅 新 硬件 问世 (或 过 时 ) 
的 速度 就 会 使 驱动 程序 编写 人 员 面 临 很 多 任务 ; 其 次 , 个 人 用 户 可 能 需要 了 解 一 些 驱 动 
程序 知识 才能 访问 设备 ;另外 , 硬件 厂商 通过 提供 Linux 驱动 程序 能 为 自己 的 产品 带 来 
数目 庞大 且 日 益 增长 的 潜在 用 户 群 ; 最 后 ，Linux 系统 是 开源 的 ， 如 果 驱 动 程序 作者 愿 
意 ， 驱 动 程序 源码 就 可 以 在 大 量 用 户 中 间 迅 速 流传 。 


本 书 将 讲述 有 关 驱 动 程序 编程 方法 以 及 内 核 的 相关 知识 .我 们 尽量 采取 独立 于 硬件 的 方 
法 ,所 讲述 的 编程 技巧 和 接口 尽 可 能 不 依赖 于 任何 具体 设备 。 每 个 驱动 程序 都 不 尽 相同 ， 
作为 驱动 程序 开发 者 , 我 们 应 该 很 好 地 了 解 自己 面 对 的 具体 设备 。 但是， 驱动 程序 相关 
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的 大 部 分 原理 和 技巧 都 是 相同 的 。 本 书 不 准备 讲述 具体 的 设备 , 而 主要 集中 在 让 设备 工 
作 的 背景 知识 上 。 


刚 开始 学 习 编写 驱动 程序 时 ,会 经 常 碰 到 许多 关于 Linux 内 核 的 知识 ; 它 将 帮助 我 们 理 
解 机 器 如 何 工作 ,工作 为 什么 不 像 预 期 的 那样 快 ,或 者 为 什么 没有 产生 预期 的 结果 等 等 。 
我 们 将 逐步 地 介绍 新 知识 ， 先 从 简单 的 驱动 程序 开始 ， 然 后 逐步 构造 复杂 的 驱动 程序 。 
每 个 新 概念 都 带 有 示例 代码 ， 它 们 不 需要 特别 的 硬件 支持 就 可 以 运行 。 


本 章 不 涉及 实际 的 编程 。 但 我 们 也 会 介绍 一 些 有 关 Linux 内 核 的 背景 知识 , 这 些 知识 在 
后 面 进行 实际 编程 时 将 非常 有 用 。 


设备 驱动 程序 的 作用 

作为 驱动 程序 编写 者 ,我们 需要 在 所 需 的 编程 时 间 以 及 驱动 程序 的 灵活 性 之 间 选 择 一 个 
可 接受 的 折衷 。 读 者 可 能 奇怪 于 说 驱动 程序 “灵活 ”， 我 们 用 这 个 词 实际 上 是 强调 设备 
驱动 程序 的 作用 在 于 提供 机 制 ， 而 不 是 提供 策略 。 


区 分 机 制 和 策略 是 Unix 设 计 背 后 隐 含 的 最 好 思想 之 一 。 大 多 数 编程 问题 实际 上 都 可 以 分 
成 两 部 分 :“ 需 要 提供 什么 功能 ”( 机 制 ) 和 “如 何 使 用 这 些 功 能 ”( 策 略 )。 如 果 这 两 个 
问题 由 程序 的 不 同 部 分 来 处 理 , 或 者 甚至 由 不 同 的 程序 来 处 理 , 则 这 个 软件 包 更 易 开发 ， 
也 更 容易 根据 需要 来 调整 。 


例如 , Unix 中 图 形 显 示 器 的 管理 就 分 成 X 服 务 器 以 及 窗口 和 会 话 管理 器 两 部 分 。 前 者 操 
作 硬 件 , 给 用 户 程序 提供 统一 接口 ; 后 者 实现 特定 策略 , 而 不 用 知道 任何 与 硬件 相关 的 
信息 。 我 们 可 以 在 不 同 硬件 上 运行 同样 的 窗口 管理 器 , 不 同 的 用 户 也 可 以 在 相同 的 工作 
站 上 使 用 不 同 的 配置 。 即 使 完全 不 同 的 桌面 环境 , 诸如 KDE 和 GNOME, 也 能 在 同一 个 
系统 中 共存 。 另 外 一 个 例子 是 具有 分 层 结构 的 TCP/IP 网 络 : 位 于 下 层 的 操作 系统 负责 
提供 套 接 字 抽象 层 , 但 在 所 传输 的 数据 上 则 没有 附加 任何 策略 ; 上 面 各 层 的 服务 器 则 分 
别提 供 不 同 的 服务 (以 及 相关 策略 )。 再 比如 ， 一 个 类 似 fipd 这 样 的 服务 器 提供 文件 传 
输 机 制 , 用户 可 以 使 用 任何 自己 喜欢 的 客户 端 传输 文件 ， 例 如 命令 行 和 图 形 客 户 端 ; 而 
人 们 也 可 以 编写 一 个 新 的 用 户 界面 来 传输 文件 。 


驱动 程序 同样 存在 机 制 和 策略 的 分 离 问题 。 例 如 , 软驱 的 驱动 程序 不 带 策略 ， 它 的 作用 
是 将 磁盘 表示 为 一 个 连续 的 数据 块 阵列 。 系统 高 县 负责 提供 策略 , 比如 谁 有 权 访 问 软盘 
驱动 器 , 是 直接 访问 驱动 器 还 是 通过 文件 系统 , 以 及 用 户 是 否 可 以 在 驱动 器 上 挂 装 文件 
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系统 等 等 。 既然 不 同 的 环境 通常 需要 不 同 的 方式 来 使 用 硬件 , 我 们 应 当 尽 可 能 做 到 让 驱 
动 程序 不 带 策略 。 


在 编写 驱动 程序 时 , 程序 员 应 该 特别 注意 下 面 这 个 基本 概念 : 编写 访问 硬件 的 内 核 代码 
时 , 不 要 给 用 户 强 加 任何 特定 策略 。 因 为 不 同 的 用 户 有 不 同 的 需求 ,驱动 程序 应 该 处 理 
如 何 使 硬件 可 用 的 问题 ， 而 将 怎样 使 用 硬件 的 问题 留 给 上 层 应 用 程序 。 因 此 ， 当 驱动 程 
序 只 提供 了 访问 硬件 的 功能 而 设 有 附加 任何 限制 时 ， 这 个 驱动 程序 就 比较 灵活 。 然 而 ， 
有 时 候 我 们 也 需要 在 驱动 程序 中 实现 一 些 策略 。 例 如 ， 某 个 数字 IO 驱动 程序 只 提供 以 
字 节 为 单位 访问 醒 件 的 方法 ， 这 样 就 可 避免 编写 额外 代码 来 处 理 单 个 数据 位 的 麻烦 。 


如 果 从 另外 一 个 角度 来 看 驱动 程序 , 它 还 可 以 看 作 是 应 用 程序 和 实际 设备 之 间 的 一 个 软 
件 层 。 虹 动 程序 的 这 种 特权 角色 可 让 编写 者 选择 如 何 展现 设备 特性 ,也 就 是 说 , 即使 对 
于 相同 的 设备 , 不 同 的 驱动 程序 可 能 提供 不 同 的 功能 。 实 际 的 驱动 程序 设计 应 该 在 许多 
要 考虑 的 因素 之 间 做 出 平衡 。 例 如 ， 某 个 驱动 程序 可 能 同时 被 不 同 的 程序 并 发 地 使 用 ， 
此 时 驱动 程序 的 程序 员 就 有 绝对 的 自由 来 决定 如 何 处 理 并 发 问题 : 可 以 在 设备 上 实现 独 
立 于 硬件 功能 的 内 存 映射 ; 也 可 以 提供 一 个 用 户 函 数 库 , 以 帮助 应 用 程序 开发 者 在 原 语 
基础 上 实现 新 的 策略 , 等 等 。 总 地 来 说 , 驱动 程序 设计 主要 还 是 综合 考虑 下 面 三 个 方面 
的 因素 : 提供 给 用 户 尽量 多 的 选项 、 编写 驱动 程序 要 占用 的 时 间 以 及 尽量 保持 程序 简单 
而 不 至 于 错误 丛生 。 


不 带 策 略 的 驱动 程序 包括 一 些 典 型 的 特征 : 同时 支持 同步 和 异步 操作 、 驱动 程 序 能 够 被 
多 次 打开 、 充 分 利用 硬件 特性 ， 以 及 不 具备 用 来 “简化 任务 ”的 或 提供 与 策略 相关 的 软 
件 层 等 。 这 种 类 型 的 驱动 程序 不 仅 能 很 好 地 服务 最 终 用 户 , 而 且 易 于 编写 和 维护 。 实际 
上 ,不 带 策略 是 软件 设计 者 的 一 个 共同 目标 。 


实际 上 , 许多 设备 驱动 程序 是 同 用 户 程序 一 起 发 行 的 。 这 些 用 户 程序 主要 用 来 帮助 配置 
和 访问 目标 设备 。 它 们 可 能 是 简单 的 工具 ,也 可 能 是 完整 的 图 形 应 用 程序 。 例 如 ， 用 来 
调整 并 口 打印 机 驱动 程序 工作 方式 的 tunelp 程 序 ; 作为 PCMCIA 驱动 程序 包 一 部 分 的 图 
形 化 cardct! 工 具 等 等 。 和 驱动 程序 一 起 提供 的 还 会 有 一 个 客户 程序 库 , 它 提供 了 那些 不 
必 在 驱动 程序 本 身 实 现 的 功能 。 


本 书 的 讨论 范围 局 限于 内 核 , 因 此 我 们 将 尽量 避免 讨论 策略 .应 用 程序 和 支持 库 的 问题 。 
有 时 可 能 确实 会 涉及 到 有 关 策 略 以 及 如 何 支持 策略 的 内 容 ,但 我 们 不 会 深入 讨论 使 用 设 
备 的 用 户 程 序 及 它们 所 实现 的 策略 。 另 外 , 我 们 应 该 清楚 ,用 户 程序 是 软件 包 的 有 机 组 
成 部 分 ， 即 使 不 带 策略 的 软件 包 ， 也 会 同时 发 布 配 置 文件 为 下 层 机 制 提供 默认 配置 。 
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内 核 功能 划分 


Unix 系统 支持 多 个 进程 的 并 发 运行 ,每 个 进程 都 请 求 系统 资源 ,比如 运算 、 内 存 、 网 络 
连接 或 其 他 一 些 资 源 等 。 内 核 负 责 处 理 所 有 这 些 请 求 , 根据 内 核 完成 任务 的 不 同 (这 些 
任务 之 间 的 区 别 可 能 不 总 是 那么 清楚 )， 如 图 1-! 所 示 ， 可 将 内 核 功能 分 成 如 下 几 部 分 : 


进程 管理 
进程 管理 功能 负责 创建 和 销毁 进程 ， 并 处 理 它们 和 外 部 世界 之 间 的 连接 (输入 输 
出 )。 不 同 进程 之 间 的 通信 (通过 信和 号、 管道 或 进程 间 通 信和 原 语 ) 是 整个 系统 的 基 
本 功能 ,因此 也 由 内 核 处 理 。 除 此 之 外 ,控制 进程 如 何 共 享 CPU 的 调度 器 也 是 进 
程 管理 的 一 部 分 。 概 括 来 说 ， 内 核 进 程 管理 活动 就 是 在 单个 或 多 个 CPU 上 实现 了 
多 个 进程 的 抽象 。 

内 存 答 理 
内 存 是 计算 机 的 主要 资源 之 一 ,用 来 管理 内 存 的 策略 是 决定 系统 性 能 的 一 个 关键 因 
素 。 内 核 在 有 限 的 可 用 资源 之 上 为 每 个 进程 都 创建 了 一 个 虚拟 地 址 空间 ,内 核 的 不 
同 部 分 在 和 内 存 管理 子 系统 交互 时 使 用 一 组 国 数 调用 ， 包 括 简单 的 malioc/free 函 
数 对 以 及 其 他 一 些 复杂 的 函数 。 


文件 系统 
Unix 在 很 大 程度 上 依赖 于 文件 系统 的 概念 , Unix 中 的 每 个 对 象 几 乎 都 可 以 当 作文 
件 来 看 待 。 内 核 在 没有 结构 的 硬件 上 构造 结构 化 的 文件 系统 , 而 文件 抽象 在 整个 系 
统 中 广泛 使 用 。 另 外 ，Linux 支持 多 种 文件 系统 类 型 ， 也 就 是 在 物理 介质 上 组 织 数 
据 的 不 同方 式 。 例如, 磁盘 可 以 格式 化 为 符合 Linux 标准 的 ext3 文件 系统 ,也 可 格 
式 化 为 常用 的 FAT 文件 系统 或 者 其 他 种 类 。 


设备 挫 制 
几乎 每 一 个 系统 操作 最 终 都 会 映射 到 物理 设备 上 .除了 处 理 器 . 内存 以 及 其 他 很 有 
限 的 几 个 对 象 外 ,所 有 设备 控制 操作 都 由 与 被 控制 设备 相关 的 代码 来 完成 , 这 段 代 
码 就 叫做 驱动 程序 。 内 核 必须 为 系统 中 的 每 件 外 设 颈 人 相应 的 驱动 程序 , 这 包括 硬 
盘 驱 动 器 、 键 盘 和 磁带 驱动 器 等 。 这 方面 的 内 核 功能 将 是 本 书 讨论 的 主题 。 


网 络 功 能 
网 络 功能 也 必须 由 操作 系统 来 管理 , 因为 大 部 分 网 络 操作 和 具体 进程 无 关 : 数据 包 
的 传人 是 异步 事件 。 在 某 个 进程 处 理 这 些 数据 包 之 前 必须 收集 ,标识 和 分 发 这 些 数 
据 包 。 系统 负责 在 应 用 程序 和 网 络 接口 之 间 传 递 数据 包 , 并 根据 网 络 活动 控制 程序 
的 执行 。 另 外 ， 所 有 的 路 由 和 地 址 解析 问题 都 由 内 核 处 理 。 
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项 尺 模块 方式 实现 的 功能 


图 1-1: 内 核 功能 的 划分 


可 装载 模块 


Linux 有 一 个 很 好 的 特性 : 内 核 提供 的 特性 可 在 运行 时 进行 扩展 。 这 意味 着 当 系 统 启动 
并 运行 时 ， 我 们 可 以 向 内 核 添 加 功能 (当然 也 可 以 移 除 功能 )。 


可 在 运行 时 添加 到 内 核 中 的 代码 被 称 为 “模块 ”。 Linux 内 核 支持 好 几 种 模块 类 型 (或 者 
类 )， 包括 但 不 限于 设备 驱动 程序 。 每 个 模块 由 目标 代码 组 成 (没有 连接 成 一 个 完整 的 
可 执行 程序 ) ， 我 们 可 以 使 用 insmod 程序 将 模块 连接 到 正在 运行 的 内 核 ， 也 可 以 使 用 
rmmod 程序 移 除 连接 。 


图 1-1 标 识 了 负责 特定 任务 的 儿 个 不 同 的 模块 类 。 我 们 根据 模块 提供 的 功能 将 其 划分 为 
不 同 的 类 。 图 1-1 中 的 模块 涵盖 了 几 个 最 重要 的 模块 类 ， 但 远 远 不 是 完全 的 模块 类 ， 因 
为 在 Linux 中 越 来 越 多 的 功能 正在 被 模块 化 。 
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设备 和 模块 的 分 类 


Linux 系统 将 设备 分 成 三 种 基本 类 型 ， 每 个 模块 通常 实现 为 其 中 某 一 类 : 字符 模块 、 块 
模块 或 网 络 模块 。 然而 这 种 将 模块 分 成 不 同类 型 或 类 的 分 类 方式 并 不 是 非常 严格 , 程序 
员 可 以 构造 一 个 大 的 模块 , 在 其 中 实现 不 同类 型 的 设备 驱动 程序 。 然 而 , 优秀 的 程序 员 
通常 还 是 为 每 个 新 功能 创建 一 个 不 同 的 模块 ， 从 而 实现 良好 的 伸缩 性 和 扩展 性 。 


这 三 种 类 型 如 下 : 


拿 符 设备 
字符 (char) 设备 是 个 能 够 像 字 节 流 (类 似 文件 ) 一 样 被 访问 的 设备 、 由 字符 设备 
驱动 程序 来 实现 这 种 特性 。 字 符 设备 驱动 程序 通常 至 少 要 实现 open、close、read 
和 write 系统 调用 。 字 符 终端 (1/1dev/console) 和 串口 (Wdev/ttys0 以 及 类 似 设备 ) 就 
是 两 个 字符 设备 , 它们 能 够 很 好 地 说 明 “ 流 ”这 种 抽象 概念 。 字符 设备 可 以 通过 文 
件 系 统 节 点 来 访问 ,比如 /dev/t1y1 和 /dev/1p0 等 。 这 些 设备 文件 和 普通 文件 之 间 的 
唯一 差别 在 于 对 普通 文件 的 访问 可 以 前 后 移动 访问 位 置 , 而 大 多 数字 符 设备 是 一 个 
个 只 能 顺序 访问 的 数据 通道 。 然而 , 也 存在 具有 数据 区 特性 的 字符 设备 , 访问 它们 
时 可 前 后 移动 访问 位 置 。 例 如 , 帧 抓 取 器 就 是 这 样 一 个 设备 ,应 用 程序 可 以 用 mmap 
或 4seek 访问 抓 取 的 整个 图 像 。 

块 设 备 
和 字符 设备 类 似 , 块 设备 也 是 通过 /dev 目 录 下 的 文件 系统 节点 来 访问 。 块 设备 ( 例 
如 磁盘 ) 上 能 够 容纳 文件 系统 。 在 大 多 数 Unix 系统 中 ， 进 行 I/O 操作 时 块 设备 每 
次 只 能 传输 一 个 或 多 个 完整 的 块 , 而 每 块 包含 512 字 节 (或 2 的 更 高 次 壬 字 节 的 数 
据 )。Linux 可 以 让 应 用 程序 像 字符 设备 一 样 地 读 写 块 设备 ,允许 一 次 传递 任意 多 字 
节 的 数据 。 因而 , 块 设备 和 字符 设备 的 区 别 仅 仅 在 于 内 核 内 部 管理 数据 的 方式 , 也 
就 是 内 核 及 驱动 程序 之 间 的 软件 接口 ， 而 这 些 不 同 对 用 户 来 讲 是 透明 的 。 在 内 核 
中 ， 和 字符 驱动 程序 相 比 ， 块 驱动 程序 具有 完全 不 同 的 接口 。 


网 络 接 口 
任何 网 络 事务 都 经 过 一 个 网 络 接口 形成 , 即 一 个 能 够 和 其 他 主机 交换 数据 的 设备 。 
通常 , 接口 是 个 硬件 设备 , 但 也 可 能 是 个 纯 软 件 设备 , 比如 回环 (loopback ) 接口 。 
网 络 接 口 由 内 核 中 的 网 络 子 系统 驱动 , 负责 发 送 和 接收 数据 包 , 但 它 不 需要 了 解 每 
项 事务 如 何 映射 到 实际 传送 的 数据 包 。 许 多 网 络 连接 (尤其 是 使 用 TCP 协议 的 连 
接 ) 是 面向 流 的 , 但 网 络 设备 却 围绕 数据 包 的 传输 和 接收 而 设计 。 网 络 驱动 程序 不 
需要 知道 各 个 连接 的 相关 信息 ， 它 只 要 处 理 数据 包 即 可 。 


由 于 不 是 面向 流 的 设备 ， 因 此 将 网 络 接口 映射 到 文件 系统 中 的 节点 (比如 /dev/ 
tty1 ) 比较 困难 。Unix 访问 网 络 接口 的 方法 仍然 是 给 它们 分 配 一 个 唯一 的 名 字 ( 比 
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如 eth0) ,但 这 个 名 字 在 文件 系统 中 不 存在 对 应 的 节点 。 内 核 和 网 络 设备 驱动 程序 
间 的 通信 , 完全 不 同 于 内 核 和 字符 以 及 块 驱 动 程 序 之 间 的 通信 ,内 核 调用 一 套 和 数 
据 包 传输 相关 的 函数 而 不 是 read、write 等 。 


还 有 另外 一 种 划分 驱动 程序 模块 类 型 的 方法 。 一 般 而 言 , 茶 些 驱 动 程序 类 型 同 内 核 用 来 
支持 某 种 给 定 类 型 设备 的 附加 层 一 起 工作 。 比 如 ,通用 串 行 总 线 (USB ) 模块 、 串 行 模 
块 、SCSI 模块 ， 等 等 。 每 个 USB 设备 由 -个 USB 模块 驱动 ， 而 该 USB 模块 和 USB 子 
系统 一 同 工 作 , 但 设备 本 身 在 系统 中 表现 为 一 个 字符 设备 (比如 USB 串口 ) 、 一 个 块 设 
备 (比如 USB 存储 卡 读 取 器 )， 或 者 一 个 网 络 设 备 (比如 USB 以 太 网 接口 ) 。 


最 近 还 有 其 他 类 型 的 设备 驱动 程序 加 入 到 了 内 核 , 其 中 包括 FireWire 驱动 程 译 和 I2C 驱 
动 程序 。 与 处 理 USB 及 SCSI 驱动 程 序 的 方法 一 样 ， 内 核 开发 者 实现 整个 设备 类 型 的 共 
有 特性 ， 然 后 提供 给 驱动 程序 实现 者 ， 从 而 避免 了 重复 工作 ， 降 低 了 出 现 缺 陷 的 可 能 ， 
简化 并 增强 了 编写 这 些 驱动 程序 的 过 程 。 


除了 设备 驱动 程序 外 , 内 核 中 其 他 一 些 功能 (不 管 是 硬件 还 是 软件 功能 ) 也 都 模块 化 了 。 
一 个 常见 的 例子 是 文件 系统 。 一 个 文件 系统 类 型 决定 了 如 何在 块 设备 上 组 织 数据 , 以 表 
示 目 录 和 文件 形成 的 树 。 文 件 系统 并 不 是 设备 驱动 程序 , 因为 没有 任何 实际 物理 设备 同 
这 种 信息 组 织 方式 相关 联 。 相 反 , 文件 系统 类 型 是 个 软件 驱动 程序 ， 它 将 低层 数据 结构 
映射 到 高 层 数据 结构 ,决定 文件 名 可 以 有 多 长 以 及 在 目录 项 中 存储 文件 的 哪些 信息 等 等 。 
文件 系统 模块 必须 实现 访问 目录 和 文件 的 最 底层 系统 调用 , 方法 是 将 文件 名 和 路 径 (以 
及 其 他 一 些 信息 ， 比 如 访问 模式 等 ) 映射 到 数据 块 中 的 数据 结构 中 。 这 种 接口 完全 独立 
于 在 磁盘 (或 其 他 介质 ) 上 传输 的 实际 数据 , 而 数据 的 传输 由 块 设备 驱动 程序 负责 完成 。 


由 于 Unix 系统 严重 依赖 于 底层 的 文件 系统 ， 因 此 文件 系统 概念 对 系统 操作 具有 重要 意 
义 。 解 释 (特定 ) 文件 系统 信息 的 功能 位 于 内 核 层次 结构 的 最 底层 ， 具 有 极其 重要 的 作 
用 。 如 果 我 们 想 为 一 款 新 的 CD-ROM 编写 块 驱 动 程序 ， 则 必须 提供 对 CD-ROM 上 包含 
的 数据 进行 1s 或 cp 等 操作 的 功能 , 否则 驱动 程序 毫 无 用 处 。Linux 支持 文件 系统 模块 的 
概念 ， 它 的 软件 接口 声明 了 可 以 在 文件 系统 中 的 节点 、 目 录 、 文件 以 及 超级 块 上 执行 的 
不 同 操作 。 不过, 程序 员 需 要 自己 编写 文件 系统 模块 的 情况 比较 少见 ,因为 正式 发 行 的 
内 核 版 本 中 已 经 包含 了 最 重要 文件 系统 类 型 的 代码 。 


Py 人 

安全 问题 

安全 问题 在 当今 社会 日 益 引 起 人 们 的 关注 ， 本 书 在 适当 的 时 候 都 会 讨论 这 一 问题 ,然而 ， 
有 必要 现在 就 弄 清 楚 几 个 原则 性 的 概念 。 
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系统 中 的 所 有 安全 检查 都 是 由 内 核 代 码 进 行 的 , 如 果 内 核 有 安全 漏洞 , 则 整个 系统 就 会 
有 安全 漏洞 。 在 正式 发 行 的 内 核 版 本 中 ， 只 有 授权 用 户 才 能 装载 模块 ; 也 就 是 说 ,系统 
调用 init_module 会 检查 调用 进程 是 否 具有 将 模块 装载 到 内 核 的 权利 。 因此 , 运行 正式 发 
布 的 内 核 时 , 只 有 超级 用 户 ( 注 1) 或 者 成 功 成 为 超级 用 户 的 入 侵 者 才能 使 用 特权 代码 。 


驱动 程序 编写 者 应 当 尽量 避免 在 代码 中 实现 安全 策略 .安全 策略 问题 最 好 在 系统 管理 员 
的 控制 之 下 , 由 内 核 的 高 层 来 实现 。 当 然 也 会 有 例外 。 作 为 驱动 程序 编写 者 ,我们 应 当 
清楚 有 些 情 况 下 ， 某 些 种 类 的 设备 访问 会 影响 整个 系统 , 因此 应 该 适当 控制 。 例 如 , 能 
够 影响 全 局 资源 的 设备 操作 〈 比 如 设置 中 断 线 ) ， 可 能 会 破坏 硬件 〈 比 如 装载 固件 ) 或 
者 影响 其 他 用 户 〈 比 如 给 磁带 驱动 器 设置 默认 的 块 尺寸 )， 因 此 通常 只 能 由 特权 用 户 执 
行 ， 而 相关 的 安全 检查 必须 由 驱动 程序 本 身 完成 。 


当然 ,驱动 程序 编写 者 还 应 当 避 免 由 于 自身 原因 引入 安全 方面 的 缺陷 。C 编程 语言 很 容 
易 产 生 几 种 类 型 的 错误 ,比如 1 缓冲 区 游 出 就 会 导致 许多 安全 问题 。 缓冲 区 溢出 通常 是 
由 于 程序 员 忘 记 检 查 缓 名 1 区 中 已 写 信 了 多 少数 据 ， 导 致 数据 写 到 了 缓冲 区 边界 之 外 ， 
从 而 覆盖 了 系统 中 的 其 他 数据 。 这 种 错误 可 能 危及 整个 系统 的 安全 ,因此 必须 尽量 避免 。 
幸运 的 是 , 在 驱动 程序 环境 中 避免 这 种 错误 通常 相对 容易 , 因为 此 时 的 用 户 接口 比较 有 
限 而 且 经 过 了 较为 严格 的 控制 。 


还 有 其 他 一 些 原则 性 的 安全 概念 值得 注意 .任何 从 用 户 进程 得 到 的 输入 只 有 经 过 内 核 严 
格 验证 后 才能 使 用 。 我 们 还 必须 小 心 对 待 未 初始 化 的 内 存 : 任何 从 内 核 中 得 到 的 内 存 ， 
都 必须 在 提供 给 用 户 进 程 或 者 设备 之 前 清 零 或 者 以 其 他 方式 初始 化 ,否则 就 可 能 发 生 信 
息 泄 漏 (如 数据 和 密码 的 泄漏 等 )。 如 果 设 备 要 解释 和 分 析 发 送 给 它 的 数据 ， 则 必须 确 
保 用 户 不 能 将 可 能 破坏 系统 的 任何 东西 发 送 给 它 。 最 后 , 我 们 还 应 当 考 虚设 备 操作 可 能 
造成 的 影响 ; 如果 某 些 特定 操作 (比如 重新 装载 适 配 卡 上 的 固件 或 者 格式 化 磁盘 ) 可 能 
会 影响 整个 系统 ， 则 应 当 将 此 类 操作 限于 特权 用 户 。 


应 当 小 心 使 用 从 第 三 方 获得 的 软件 , 特别 是 与 内 核 相 关 时 更 是 如 此 , 这 是 因为 源码 是 开 
放 的 , 每 个 人 都 可 以 修改 和 重新 编译 它 。 尽管 通常 我 们 可 以 信任 发 行 版 本 中 预先 编译 的 
内 核 ， 但 当 使 用 由 一 个 我 们 不 是 非常 熟悉 的 朋友 编译 的 内 核 时 就 得 当心 一 一 就 像 我 们 
不 愿意 以 root 身 份 运行 一 个 预先 编译 的 二 进 制 文件 一 样 , 我 们 也 不 应 当 运行 一 个 预先 编 
译 好 的 内 核 。 例 如 ， 一 个 恶意 修改 过 的 内 核 可 能 会 允许 任何 人 装载 模块 ， 这样， 一遍 通 
过 init_module 的 后 门 就 打开 了 。 





注 工 从 技术 上 讲 、 只 有 个 别 有 CAP_SYS_MIDULE 能 力 的 人 可 以 执行 此 操作 。 我 们 将 在 第 六 章 
对 此 进行 讨论 。 
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Linux 内 核 也 可 编译 为 不 支持 模块 方式 ， 从 而 可 以 关闭 任何 模块 相关 的 安全 漏洞 。 但 在 
这 种 情况 下 ， 所 有 所 需 的 驱动 程序 必须 直接 编译 到 内 核 中 。 另 外 ,在 2.2 及 以 后 的 内 核 
版 本 中 ， 我 们 还 可 以 通过 权能 机 制 禁止 在 系统 启动 后 装载 内 核 模 块 。 


版 本 编号 


在 深入 探讨 编程 之 前 , 我 们 还 要 说 明 一 下 Linux 使 用 的 版 本 编号 机 制 以 及 本 书 讲 到 的 内 
核 版 本 。 


首先 ，Linux 系统 中 的 每 个 软件 包 都 有 自己 的 发 行 编号 ， 而 且 它 们 之 间 经 常 存在 相互 间 
的 依赖 关系 ,也 就 是 说 , 只 有 存在 某 个 软件 包 的 某 个 特定 版 本 时 ,才能 运行 另 一 个 软件 
包 的 某 个 特定 版 本 。 通 常 ，Linux 发 行 版 的 制作 者 已 经 解决 了 复杂 的 包 匹 配 问 题 ， 用 户 
安装 一 个 预先 打包 好 的 发 行 版 时 不 必 关 心 版 本 号 问题 。 但 如 果 我 们 需要 自己 替换 或 者 更 
新 系统 中 的 某 个 软件 包 , 则 另 当 别论 。 幸 运 的 是 ,现在 几乎 所 有 的 发 行 版 都 带 有 包 管 理 
器 ， 它 在 验证 满足 包 之 间 的 依赖 关系 后 才 允 许 升级 包 。 


为 了 运行 本 书 中 的 示例 代码 , 除了 内 核 的 2.6 版 本 之 外 , 对 其 他 工具 则 没有 版 本 要 求 。 任 
何 最 近 发 行 的 Linux 发 行 版 都 可 以 用 来 运行 我 们 的 例子 .我 们 不 会 详细 闻 述 具体 的 要 求 ， 
因为 读者 遇 到 任何 版 本 相关 的 问题 时 , 均 可 参考 内 核 源 文件 Documentation/Changes 来 
解决 。 


对 内 核 来 讲 , 偶数 编号 的 内 核 版 本 (如 2.6.x) 是 用 于 正式 发 行 的 稳定 版 本 , 而 奇数 编号 
的 版 本 (如 2.7.x) 则 是 开发 过 程 中 的 一 个 快照 , 它 将 很 快 被 下 一 开发 版 本 更 新 。 最 新 的 
开发 版 本 只 是 代表 了 内 核 开 发 目前 的 状态 ， 几 天 后 可 能 就 会 过 时 。 


本 书 描述 内 核 的 2.6 版 本 。 我 们 的 关注 点 主要 在 于 向 读者 展示 2.6.10 内 核 中 有 关 设 备 驱 
动 程序 编写 的 所 有 可 用 功能 特性 .2.6.10 是 编写 本 书 时 的 最 新 版 本 。 与 先前 的 版 本 不 同 ， 
本 书 的 这 个 版 本 不 再 讨论 老 的 内 核 版 本 。 如 果 读 者 对 老 的 版 本 感 兴 趣 , 可 阅读 本 书 第 二 
版 , 该 版 本 描述 了 内 核 的 2.0 到 2.4 版 本 , 而 且 可 在 线 获得 : htip://iwn.net/KernelILDD21。 


内 核 程序 员 需 要 注意 内 核 的 开发 过 程 在 2.6 版 本 中 有 所 变化 。 2.6 系 列 目前 正在 接受 一 些 
修改 , 在 以 前 这 些 修改 可 能 会 被 认为 对 一 个 “稳定 ”内 核 来 说 显得 太 大 。 这 种 情况 意味 
着 内 核 的 内 部 编程 接口 可 能 发 生变 化 , 从 而 会 让 本 书 的 一 些 内 容 变 得 陈旧 。 出 于 对 此 原 
因 的 考虑 , 文中 随 附 的 示例 代码 可 在 2.6.10 版 本 下 工作 , 而 某 些 模块 不 能 在 较 早 的 版 本 
中 编译 。 我 们 鼓励 那些 希望 跟 进 内 核 改 变 的 程序 员 加 入 本 书 参 考 书目 中 列 出 的 邮件 列表 ， 
或 者 访问 列 出 的 网 站 。 在 网 址 hiip://iwn.net/Articles/2.6-kernel-apil 中 包含 有 自从 本 书 
发 行 以 来 内 核 API 所 发 生 的 一 些 变化 。 
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本 书 很 少 讨论 到 奇数 编号 的 内 核 版 本 ,普通 用 户 也 很 少 会 有 使 用 这 种 版 本 的 需求 然而， 
如 果 我 们 希望 了 解 、 跟 踪 开 发 版 本 的 新 特性 ,就 需要 运行 最 近 发 行 的 开发 版 本 ,而 且 还 
得 随 着 开发 版 本 的 更 新 不 断 获 取 缺 陷 的 补丁 以 及 新 实现 的 特性 。 但 是 , 对 于 开发 版 本 我 
们 必须 记 住 它 没有 任何 担保 ( 注 2), 如 果 我 们 碰 到 的 问题 是 由 于 老 版 本 奇数 编号 的 内 核 
引起 的 , 则 没有 人 可 以 求助 。 那 些 运行 奇数 编号 内 核 版 本 的 程序 员 通 常 具有 是 够 的 知识 ， 
无 需求 助教 科 书 就 可 以 自己 钻研 内 核 代 码 。 这 也 是 我 们 为 什么 不 在 这 儿 讨论 内 核 开发 版 
本 的 另外 一 个 原因 。 


Linux 的 另外 一 个 特性 是 ， 它 是 一 个 不 依赖 于 特定 硬件 平台 的 操作 系统 。 目 前 ， 它 不 再 
是 “PC 克隆 上 的 Unix 克隆 ” ， 而 支持 20 多 种 架构 。 本 书 尽 可 能 做 到 与 平台 无 关 ， 所 有 
示例 代码 都 在 x86 和 x86-64 平 台 上 测试 过 了 。 因为 示例 代码 在 32 位 和 64 位 处 理 器 上 都 
经 过 了 测试 ,所 以 在 其 他 平台 上 应 该 都 能 编译 运行 。 然而, 如果 示 例 代码 依赖 于 某 个 特 
定 硬 件 ， 则 不 能 在 所 有 已 支持 的 平台 上 都 能 工作 ， 我 们 会 在 源码 中 特别 声明 这 一 点 。 


许可 证 条 款 

Linux 遵循 GNU 通用 公共 许可 证 (General Public License，GPL ) 版 本 2 发 布 。GPL 由 
自由 软件 基金 会 为 GNU 项 目 设计 , 它 允 许 任何 人 重新 发 行 甚至 销售 由 GPL 条 款 保 护 的 
产品 , 前 提 是 产品 接收 者 能 够 获得 源码 并 拥有 同样 的 权利 。 另 外 , 任何 从 GPL 保 护 的 产 
品 中 派生 出 来 的 软件 产品 也 必须 在 GPL 条 款 下 发 布 。 


这 样 一 个 许可 证 的 主要 目的 是 通过 允许 每 个 人 自由 修改 程序 来 实现 知识 增长 ; 同时 , 向 
公众 出 售 软件 的 人 仍旧 可 以 获 利 。 但 就 是 这 样 一 个 具有 简单 目的 的 条 款 , 在 GPL 及 其 使 
用 上 一 直 存在 着 争论 。 如 果 读 者 想 阅 读 这 个 许可 证 的 原文 , 可 以 在 系统 的 好 几 个 地 方 找 
到 它 ， 比 如 内 核 源 代码 树 顶层 目录 中 的 COPYING 文件 。 


生产 商 经 常 询问 他 们 能 否 仅 以 二 进 制 形式 发 布 内 核 模 块 ,这 个 问题 的 答案 被 有 意 地 保持 
为 不 确定 。 到 目前 为 止 , 只 要 二 进 制 模块 只 使 用 公开 的 内 核 接口 , 则 二 进 制 形式 的 发 布 
得 以 容忍 。 但 内 核 版 权 由 许多 开发 人 员 拥有 , 并 不 是 所 有 的 人 都 同意 内 核 模块 不 算 作 派 
生产 品 。 如果 你 或 者 你 的 雇主 打算 在 非 自由 的 许可 证 下 发 布 内 核 模块 , 则 应 该 和 你 的 法 
律 顾问 认真 讨论 是 否 可 行 。 同 时 也 请 注意 , 内核 开 发 者 不 会 考虑 因为 内 核 版 本 间 (甚至 
稳定 的 内 核 版 本 间 ) 的 变化 而 导致 二 进 制 模块 出 现 不 兼容 的 问题 。 如果 可 能 ,你 应 该 以 
自由 软件 的 形式 发 布 你 的 模块 ， 这 样 有 利于 你 和 你 的 用 户 。 





注 2: 注意 ， 即 使 是 偶数 编号 的 内 核 也 一 样 没有 担保 ， 除非 依 粮 于 由 供应 商 提供 担保 的 版 本 。 
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如 果 你 希望 自己 的 代码 进入 内 核 的 主 分 支 , 或 者 你 的 代码 需要 向 内 核 中 打 补 丁 , 则 必须 
在 发 布 代码 时 使 用 GPL 兼容 的 许可 证 。 尽 管 对 你 代码 的 个 人 使 用 并 不 强制 要 求 GPL , 但 
如 果 要 发 布 你 的 代码 , 则 必须 同时 发 布 源 代 码 ， 也 就 是 说 ,获得 你 所 发 布 软件 包 的 人 必 
须 被 允许 重新 建立 对 应 的 二 进 制 代码 。 


就 本 书 而 言 ， 不 管 是 源 代码 还 是 二 进 制 形式 ， 文 中 的 大 部 分 代码 都 可 以 免费 重新 发 布 ， 
并 且 不 管 是 作者 还 是 O'Reilly 都 不 对 任何 派生 作品 保留 任何 权利 。 所 有 程序 都 可 以 从 
fip:l/ftp.ora.comlpublexamplesilinuxldrivers/ 中 得 到 ， 许 可 证 条 款 在 同一 目录 下 的 
LICENSE 文件 中 表述 。 


加 入 内 核 开发 社团 


当 我 们 开始 为 Linux 内 核 编写 模块 的 时 候 ， 我 们 就 成 为 巨大 开发 者 社区 中 的 一 员 了 。 在 
这 个 社区 中 , 我 们 不 仅 发 现 很 多 人 从 事 类 似 的 工作 , 而 且 发 现 一 群 具有 高 度 使 命 感 的 工 
程 师 正 朝 着 将 Linux 发 展 成 为 一 个 更 好 系统 的 目标 前 进 。 这 些 人 是 我 们 获得 帮助 、 思 路 
以 及 严格 评价 的 源泉 。 当 我 们 为 新 的 驱动 程序 寻找 测试 者 的 时 候 , 他 们 将 是 我 们 乐于 提 
交 的 第 一 批 人 。 


linux-kernel 邮 件 列表 是 Linux 内 核 开发 者 的 聚集 中 心 。 从 Linus Torvalds 往 下 , 所 有 主 
要 的 内 核 开发 者 都 订阅 这 个 邮件 列表 .请 注意 ,这 个 列表 不 适合 那些 心脏 比较 脆弱 的 人 : 
该 邮件 列表 每 天 都 会 有 200 条 消息 或 者 更 多 。 然 而 , 对 于 那些 对 内 核 开 发 感 兴趣 的 人 来 
说 , 跟踪 这 个 列表 是 必要 的 ; 对 于 那些 需要 内 核 开 发 帮助 的 人 来 讲 , 它 更 是 一 个 顶级 质 
量 的 资源 。 


要 加 入 linux-kernel 列 表 , 请 遵照 linux-kernei 邮 件 列表 FAQ , 即 htip://www.tux.org/{kml 
中 的 指示 。 如 果 已 经 打开 了 这 个 FAQ 页 面 , 我 们 还 应 当 看 看 其 中 的 其 他 内 容 , 它 上 面 有 
大 量 的 有 用 信息 。Linux 内 核 开发 者 都 比较 忙 ， 他们 更 愿意 帮助 那些 首先 了 解 了 基本 知 
识 的 人 。 


本 书 概要 


从 第 二 章 起 , 我 们 将 进入 内 核 编程 领域 . 第 二 章 介 绍 了 模块 化 技术 , 解释 了 其 实现 技巧 ， 
并 讲解 了 运行 模块 的 代码 。 第 三 章 讨论 字符 驱动 程序 , 给 出 了 一 个 基于 内 存 的 设备 驱动 
程序 的 完整 代码 。 将 内 存 作为 设备 的 硬件 基础 , 可 允许 任何 人 在 无 需 特殊 硬件 的 情况 下 
运行 我 们 的 示例 代码 。 
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对 程序 员 来 讲 , 调试 技术 是 很 重要 的 工具 , 我 们 将 在 第 四 章 介绍 内 核 调试 技术 。 对 那些 
希望 在 内 核 中 有 所 作为 的 人 来 讲 , 并 发 管理 和 竞 态 也 一 样 重要 。 第 五 章 主 要 关注 因为 资 
源 的 并 发 访问 而 引入 的 问题 ， 并 介绍 了 Linux 用 来 控制 并 发 的 机 制 。 


随后 ， 带 着 调试 和 并 发 管理 技巧 ， 我 们 转 到 字符 虹 动 程序 的 高 级 特性 ， 比 如 阻塞 操作 、 
select 的 使 用 以 及 重要 的 ioct! 调用 等 ， 这 些 都 是 第 六 章 的 内 容 。 


在 讨论 硬件 管理 之 前 ， 我 们 先 剖 析 内 核 的 几 个 软件 接口 : 第 七 章 讨论 内 核 的 时 间 管 理 ， 
第 八 章 讨论 内 存 分 配 。 


接 下 来 我 们 集中 于 硬件 问题 。 第 九 章 描述 MO 端口 管理 和 设备 上 内 存 缓冲 区 的 管理 。 之 
后 , 我 们 在 第 十 章 讨 论 中 断 处理 。 不 幸 的 是 , 并 不 是 所 有 人 都 可 以 运行 这 些 章 节 中 的 示 
例 代码 , 因为 需要 一 些 硬 件 支 持 才 能 测试 软件 接口 中 断 。 我 们 尽 可 能 使 必需 的 硬件 支持 
减 到 最 小 , 但 仍然 需要 一 些 简单 的 硬件 来 运行 这 些 章 节 中 的 示例 代码 , 比如 一 个 标准 的 
并 口 。 


第 十 一 章 介 绍 了 内 核 数 据 类 型 的 使 用 ， 以 及 可 移植 代码 的 编写 。 


本 书 的 第 二 部 分 专门 用 来 讨论 更 高 级 的 主题 。 我 们 从 深入 探讨 硬件 . 尤其 是 一 些 具体 总 
线 的 功能 开始 。 第 十 二 章 介 绍 了 编写 PCI 设 备 驱 动 程序 的 细节 信息 , 而 第 十 三 章 讲 解 了 
USB 设备 相关 的 API。 


有 了 对 外 设 总 线 的 理解 , 我 们 可 以 详细 研究 Linux 的 设备 模型 了 。 设 备 模型 是 由 内 核 使 
用 的 抽象 野 , 它 描述 了 内 核 所 管理 的 硬件 和 软件 资源 。 第 十 四 章 从 底 向 上 研究 设备 模型 
这 种 基础 设施 , 首先 讲述 了 kobject 类 型 。 这 一 章 描述 了 设备 模型 和 真实 硬件 间 的 集成 ， 
然后 利用 这 些 知 识 讲述 了 诸如 热 插 拔 设备 和 电源 管理 等 相关 内 容 。 


在 第 十 五 章 , 我 们 转 而 讨论 Linux 的 内 存 管理 。 这 一 章 说 明了 如 何 将 内 核 内 存 映射 到 用 
户 空间 ( 即 mmap 系统 调用 )、 如 何 将 用 户 内 存 映射 到 内 核 空间 (使 用 get_user_pages)， 
以 及 如 何 将 这 两 种 内 存 映射 到 设备 空间 (执行 直接 内 存 访问 [DMA] 操 作 ) 。 


对 内 存 的 理解 将 有 助 于 阅读 之 后 的 两 个 章节 ,这 两 章 讲 述 了 其 他 几 个 主要 的 驱动 程序 类 
型 。 第 十 六 章 介 绍 了 块 驱动 程序 , 并 说 明了 它 和 字符 驱动 程序 之 间 的 区 别 。 第 十 七 章 讲 
述 了 网 络 驱动 程序 的 编写 。 最 后 ,我们 在 第 十 八 章 讨论 了 串 行 驱动 程序 , 然后 以 “参考 
书目 ”结束 本 书 。 

















现在 终于 可 以 开始 编程 了 。 本 章 将 介绍 所 有 关于 模块 编程 和 内 核 编程 的 必要 概念 。 在 这 
有 限 的 篇 幅 中 ,我 们 将 构建 并 运行 一 个 完整 的 (但 相对 没有 多 少 用 处 的 ) 模块 。 我 们 会 
看 到 一 些 由 所 有 模块 共享 的 基本 代码 ,掌握 这 种 技能 是 编写 任何 模块 化 驱动 程序 的 基础 。 
为 了 避免 一 次 引入 太 多 概念 ， 本 章 将 只 讨论 模块 ， 而 避免 涉及 任何 特定 类 型 的 设备 。 


本 章 引 入 的 所 有 内 核 条 目 ( 函数、 变量 、 头 文件 和 宏 ) 将 在 本 章 末 尾 的 “快速 参考 ”一 
节 中 集中 描述 。 


设置 测试 系统 


从 本 章 开 始 , 我 们 为 读者 提供 一 些 示 例 模块 , 以 便 演示 编程 概念 (所 有 的 示例 代码 可 从 
O'Reilly 的 FTP 站 点 上 下 载 ， 相 关 信 息 请 参阅 第 一 章 )。 构 造 、 加 载 和 修改 这 些 示 例 代 
码 ， 将 帮助 读者 理解 驱动 程序 的 工作 方式 以 及 和 内 核 的 交互 方式 。 


示例 模块 应 可 在 几乎 所 有 的 2.6.x 内 核 之 上 运行 , 也 包括 发 行 版 厂商 提供 的 内 核 。 但 是 ， 
我 们 建议 读者 直接 从 kernel.org 的 镜像 网 站 上 获得 一 个 “主线 ”内 核 ， 并 安装 到 自己 的 
系统 中 。 由 发 行 版 厂商 提供 的 内 核 通 常 打 了 许多 的 补丁 ,从 而 和 主线 内 核 存 在 很 大 差异 ; 
某 些 情况 下 , 厂商 的 补丁 会 修改 设备 驱动 程序 使 用 的 内 核 API。 如 果 读 者 正在 编写 一 个 
只 适用 于 某 特定 发 行 版 的 驱动 程序 ， 则 应 该 针对 相关 内 核 创 建 和 测试 自己 的 驱动 程序 。 
但 是 ， 如 果 想 要 学 习 驱 动 程序 的 编写 ， 则 标准 内 核 是 最 好 的 。 


不 管内 核 来 自 哪里 ， 要 想 为 2.6.x 内 核 构 造 模块 ， 还 必须 在 自己 的 系统 中 配置 并 构造 好 
内 核 树 。 这 一 要 求 和 先前 版 本 的 内 核 不 同 ,先前 的 内 核 只 需要 有 一 套 内 核 头 文件 就 够 了 。 
但 因为 2.6 内 核 的 模块 要 和 内 核 源 代 码 树 中 的 目标 文件 连接 ,通过 这 种 方式 ， 可 得 到 一 
个 更 加 健壮 的 模块 装载 器 , 但 也 需要 这 些 目 标 文件 存在 于 内 核 目 录 树 中 。 这 样 , 读者 首 
先 要 准备 好 一 个 内 核 源 代码 树 ( 可 以 是 来 自 kernel.org 网 络 的 ， 也 可 以 是 发 行 版 的 内 核 
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源 代码 包 ) ， 构 造 一 个 新 内 核 ， 然 后 安装 到 自己 的 系统 中 。 因 为 后 面 讲 到 的 原因 ， 如 果 
在 构造 内 核 时 运行 的 恰好 是 目标 内 核 , 则 开发 工作 就 会 非常 轻松 。 当 然 , 这 并 不 是 必需 
的 。 








警告 : 另外 ,读者 还 应 该 想 好 在 什么 地 方 完成 模块 的 试验 、 开 发 和 测试 。 我 们 已 尽 可 能 让 示例 模 
块 安全 而 正确 , 但 缺陷 依然 可 能 存在 。 内 核 代码 中 的 错误 可 能 导致 用 户 进程 甚至 整个 系统 
的 崩溃 。 这 些 错 误 通常 不 会 制造 更 加 严重 的 问题 ， 比 如 磁盘 的 损坏 ,但 我 们 仍然 建议 读者 
在 一 个 不 包含 任何 敏感 数据 或 者 不 执行 重要 服务 的 系统 上 完成 我 们 的 内 核 试验 。 内 核 黑 客 
通常 拥有 一 个 “ 牺 和 性 用 的 ”系统 ， 用 于 测试 新 的 代码 。 





因此 ,如 果 读 者 还 没有 合适 的 系统 , 其 中 包含 已 经 配置 并 构造 好 了 的 内 核 源 代 码 树 ， 则 
现在 就 应 该 准备 好 。 一 旦 完成 准备 工作 ， 读 者 就 可 以 尝试 运行 内 核 模块 了 。 


Hello World 模块 


许多 编程 书籍 都 会 以 一 个 “hello world” 示 例 程序 来 说 明 最 简单 的 程序 。 虽 然 本 书 讲述 
的 是 内 核 模 块 而 不 是 程序 , 但 如 果 读 者 急于 看 到 实际 的 代码 , 则 下 面 这 段 代 码 是 完整 的 
“helio world” 模 块 : 

#include <linux/init.h> 


#include <linux/module.h> 
MODULE_LICENSE ("Dual BSD/GPL"); 


static int hello_init {void) 

{ 
printk{(KERN_ALERT "Hello, world\n'"); 
return 0; 

} 


static void hello_exit (void)} 
{ 

printk (KERN_ALERT "Goodbye, cruel world\n"); 
} 


module_init (hello_init) : 

module_exit (hello_exit); 
这 个 模块 定义 了 两 个 函数 ， 其 中 一 个 在 模块 被 装载 到 内 核 时 调用 (hello_init)， 而 另 一 
个 则 在 模块 被 移 除 时 调用 (hello_exit)。module_init 和 module_exit 行 使 用 了 内 核 的 特 
殊 宏 来 表示 上 述 两 个 函数 所 扮演 的 角色 。 另 外 一 个 特殊 宏 (MODULE_LICENSE) 用 来 
告诉 内 核 , 该 模块 采用 自由 许可 证 ; 如 果 没 有 这 样 的 声明 ,内核 在 装载 该 模块 时 会 产生 
抱怨 。 
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函数 printk 在 Linux 内 核 中 定义 ， 功 能 和 标准 C 库 中 的 函数 printf 类 似 。 内 核 需要 自己 
单独 的 打印 输出 函数 ,这 是 因为 它 在 运行 时 不 能 依赖 于 C 库 。 模块 能 够 调用 printk 是 因 
为 在 insmod 函数 装 人 模块 后 , 模块 就 连接 到 了 内 核 , 因而 可 以 访问 内 核 的 公用 符号 ( 包 
括 函 数 和 变量 , 下 一 节 详 述 )。 代 码 中 的 字符 串 KERN_ALERT 定 义 了 这 条 消息 的 优先 级 
( 注 1)。 我 们 需要 在 模块 代码 中 显 式 地 指定 高 优先 级 的 原因 在 于 : 具有 默认 优先 级 的 消 
息 可 能 不 会 输出 在 控制 台 上 ， 这 依赖 于 内 核 版 本 、kiogd 守护 进程 的 版 本 以 及 具体 的 配 
置 。 读 者 可 以 暂时 忽略 这 个 问题 ， 我 们 将 在 第 四 章 中 仔细 阐述 。 


如 下 所 示 , 读者 可 以 通过 调用 insmod 和 rmmod 工 具 来 测试 这 个 模块 。 值 得 注意 的 是 , 只 
有 超级 用 户 才 有 权 加 载 和 凶 载 模块 。 


$$ make 

make[1]: Entering directory “/usr/src/linux-2.6.10"' 
CC [M] /home/ldd3/src/misc-modules/hello.o 
Building modules, stage 2. 
MODPOST 
ce /home/ldd3/src/misc-modules/hello.mod.o 
LD [M] /home/ldd3/src/misc-modules/hello.ko 

make[1]: Leaving directory ‘/usr/src/linux-2.6.10' 

$% Bu 

root# ingmod ./hello.ko 

Hello, world 

root# rmmod hello 

Goodbye, cruel world 

root# 


需要 再 次 提醒 注意 的 是 , 为 了 让 上 述 命令 正常 工作 , 读者 必须 已 经 在 makefile 能 够 找到 
的 地 方 ( 这 里 是 /usr/srec/linux-2.6.10) 正确 配置 和 构造 了 内 核 树 。 在 “编译 和 装载 ”一 
节 中 ， 我 们 将 仔细 描述 如 何 构 造 模块 。 


根据 系统 传递 消息 行 机 制 的 不 同 , 读 老 得 到 的 输出 结果 可 能 不 一 样 。 需 要 特别 指出 的 是 ， 
上 面 的 屏幕 输出 是 在 文本 控制 台 上 得 到 的 ; 如 果 读 者 在 某 个 运行 于 Windows 系 统 下 的 终 
端 仿真 器 中 运行 insmod 和 rmmod， 则 不 会 在 屏幕 上 看 到 任何 输出 。 实 际 上 ， 它 可 能 输 
出 到 某 个 系统 日 志文 件 里 ， 比 如 /war/iog/messages (实际 的 名 称 随 Linux 发 行 版 的 不 同 
可 能 会 有 所 变化 )。 内 核 消息 的 传递 机 制 将 在 第 四 章 中 详细 讨论 。 


我 们 已 经 看 到 ， 编 写 一 个 模块 并 没有 想像 的 那么 困难 一 一 至 少 当 模块 不 需要 完成 什么 
有 价值 的 工作 时 。 真正 的 困难 在 于 理解 设备 并 最 大 化 其 性 能 .本章 将 深入 讨论 模块 化 问 
题 ， 而 把 设备 相关 的 问题 留 到 以 后 的 章节 。 








注 1: 。 优先 级 只 是 个 字符 事 ， 诸 如 <1>， 该 字符 事 置 于 printk 格 式 字 符 事 的 前 面 。 请 注意 ， 
KERN_ALERT 之 后 并 不 使 用 送 号 ， 但 添加 逗号 的 打字 错误 却 会 经 常 发 生 ， 率 好 蝙 转 器 能 
帮助 我 们 捕获 这 个 错误 。 
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核心 模块 与 应 用 程序 的 对 比 
在 进一步 讨论 之 前 ， 有 必要 搞 清 楚 内 核 模块 和 应 用 程序 之 间 的 种 种 不 同 之 处 。 


大 多 数 小 规模 及 中 规模 应 用 程序 是 从 头 到 尾 执行 单个 任务 ,而 模块 却 只 是 预先 注册 自己 
以 便服 务 于 将 来 的 某 个 请 求 , 然后 它 的 初始 化 函数 就 立即 结束 。 换 句 话 说 , 模块 初始 化 
国 数 的 任务 就 是 为 以 后 调用 模块 函数 预先 做 准备 ; 这 就 像 模块 在 说 : “我 在 这 儿 ， 并 且 
我 能 做 这 些 工 作 。” 模 块 的 退出 函数 〈 例 子 中 的 helio_exir) 将 在 模块 被 卸载 之 前 调用 。 
它 告 诉 内 核 :“ 我 要 离开 啦 , 不 要 再 让 我 做 任何 事情 了 。 这 种 编程 方式 和 事件 驱动 的 编 
程 有 点 类 似 ， 但 并 不 是 所 有 的 应 用 程序 都 是 事件 驱动 的 ， 而 每 个 内 核 模 块 都 是 这 样 的 。 
事件 驱动 的 应 用 程序 和 内 核 代 码 之 间 的 另 一 个 主要 不 同 是 : 应 用 程序 在 退出 时 , 可 以 不 
管 资源 的 释放 或 者 其 他 的 清除 工作 ,但 模块 的 退出 函数 却 必须 仔细 撤销 初始 化 函数 所 做 
的 一 切 ， 否 则 ， 在 系统 重新 引导 之 前 某 些 东 西 就 会 残留 在 系统 中 。 


顺便 提 及 ,能 够 卸载 模块 可 能 是 模块 化 驱动 程序 编程 当中 读者 最 为 喜欢 的 一 个 特色 , 因 
为 它 有 助 于 缩短 模块 的 开发 周期 : 我 们 可 以 测试 新 驱动 的 一 系列 版 本 却 不 需要 每 次 都 经 
过 元 长 的 关机 /重启 过 程 。 


作为 程序 员 , 我 们 知道 应 用 程序 可 以 调用 它 并 未 定义 的 函数 , 这 是 因为 连接 过 程 能 够 解 
析 外 部 引用 从 而 使 用 适当 的 函数 库 。 例 如 ,定义 在 libc 中 的 Print 函数 就 是 这 种 可 被 调 
用 的 函数 之 一 。 然 而 ,模块 仅仅 被 链接 到 内 核 , 因此 它 能 调用 的 函数 仅仅 是 由 内 核 导出 
的 那些 函数 , 而 不 存在 任何 可 链接 的 函数 库 。 例 如, 前面 helio.c 中 使 用 的 printk 函数 就 
是 由 内 核定 义 并 导出 给 模块 使 用 的 一 个 printf 的 内 核 版 本 。 除 了 几 个 细小 差别 外 ， 它 和 
printf 函数 功能 类 似 ， 最 大 的 不 同 在 于 它 缺 乏 对 浮 点 数 的 支持 。 


图 2-1 展示 了 如 何在 模块 中 使 用 函数 调用 和 函数 指针 ， 从 而 为 运行 中 的 内 核 增加 新 的 功 
能 。 


因为 没有 任何 函数 库 会 和 模块 链接 ， 因 此 ， 源 文件 中 不 能 包含 通常 的 头 文件 ， 像 
<stdarg.h> 以 及 一 些 非常 特殊 的 情况 是 仅 存 的 例外 。 内 核 模块 只 能 使 用 作为 内 核 一 部 分 
的 函数 .和 内 核 相关 的 任何 内 容 都 在 我 们 安装 并 配置 好 的 内 核 源 代码 树 的 头 文件 中 声明 ， 
其 中 , 大 多 数 相 关头 文件 保存 在 include/linux 和 include/asm 目录 中 ,但 iclade 的 其 他 
子 目 录 中 保存 有 和 特定 内 核子 系统 相关 的 头 文件 。 


每 个 内 核 头 文件 的 作用 将 在 本 书 中 需要 用 到 它们 的 时 候 加 以 介绍 。 
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2-1: 将 模块 链接 到 内 核 


内 核 编程 和 应 用 程序 编程 的 另外 一 点 重要 不 同 之 处 在 于 各 环境 下 处 理 错误 的 方式 不 同 : 
应 用 程序 开发 过 程 中 的 段 错误 是 无 害 的 ,并 且 总 是 可 以 使 用 调试 器 跟踪 到 源 代码 中 的 问 
题 所 在 ， 而 一 个 内 核 错误 即使 不 影响 整个 系统 ， 也 至 少 会 杀 死 当 前 进程 。 在 第 四 章 中 ， 
我 们 将 看 到 如 何 跟踪 内 核 错误 。 


用 户 空间 和 内 核 空间 


模块 运行 在 所 谓 的 内 核 空间 里 , 而 应 用 程序 运行 在 所 谓 的 用 户 空间 中 。 这 个 概念 是 操作 
系统 理论 的 基础 之 一 。 


实际 上 ， 操作 系统 的 作用 是 为 应 用 程序 提供 一 个 对 计算 机 硬件 的 一 致 视图 。 除 此 之 外 ， 
操作 系统 必须 负责 程序 的 独立 操作 并 保护 资源 不 受 非法 访问 。 这 个 重要 任务 只 有 在 CPU 
能 够 保护 系统 软件 不 受 应 用 程序 破坏 时 才能 完成 。 


所 有 的 现代 处 理 器 都 具备 这 个 功能 。 人 们 选择 的 方法 是 在 CPU 中 实现 不 同 的 操作 模式 
(或 者 级 别 )。 不 同 的 级 别 具 有 不 同 功能 ， 在 较 低 的 级 别 中 将 禁止 某 些 操作 。 程序 代码 只 
能 通过 有 限 数目 的 “ 门 ” 来 从 一 个 级 别 切换 到 另 一 级 别 。Unix 系统 设计 时 利用 了 这 种 硬 
件 特性 , 使 用 了 两 个 这 样 的 级 别 。 当前 所 有 的 处 理 器 都 至 少 具有 两 个 保护 级 别 , 而 其 他 
的 一 些 处 理 器 , 比如 x86 系列 , 则 有 更 多 的 级 别 。 当 处 理 器 存在 多 个 级 别 时 ，Unix 使 用 
最 高 级 别 和 最 低级 别 。 在 Unix 当中 ， 内 核 运 行 在 最 高 级 别 (也 称 作 超级 用 户 态 ), 在 这 
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个 级 别 中 可 以 进行 所 有 的 操作 。 而 应 用 程序 运行 在 最 低级 别 ( 即 所 谓 的 用 户 态 )， 在 这 
个 级 别 中 ,处理 器 控制 着 对 硬件 的 直接 访问 以 及 对 内 存 的 非 授权 访问 。 


我 们 通常 将 运行 模式 称 作 内 核 空间 和 用 户 空 间 。 这 两 个 术语 不 仅 说 明 两 种 模式 具有 不 同 
的 优先 权 等 级 ， 而 且 还 说 明 每 个 模式 都 有 自己 的 内 存 映射 ， 也 即 自己 的 地 址 空间 。 


每 当 应 用 程序 执行 系统 调用 或 者 被 硬件 中 断 挂 起 时 , Unix 将 执行 模式 从 用 户 空间 切换 到 
内 核 空间 。 执 行 系统 调用 的 内 核 代 码 运 行 在 进程 上 下 文中 ， 它 代表 调用 进程 执行 操作 ， 
因此 能 够 访问 进程 地 址 空间 的 所 有 数据 。 而 处 理 硬件 中 断 的 内 核 代 码 和 进程 是 异步 的 ， 
与 任何 一 个 特定 进程 无 关 。 


模块 化 代码 在 内 核 空间 中 运行 , 用 于 扩展 内 核 的 功能 。 通常 来 讲 , 一 个 驱动 程序 要 执行 
先前 讲述 过 的 两 类 任务 : 模块 中 的 某 些 函 数 作为 系统 调用 的 一 部 分 而 执行 , 而 其 他 函数 
则 负责 中 断 处 理 。 


内 核 中 的 并 发 


内 核 编程 区 别 于 常见 应 用 程序 编程 的 地 方 在 于 对 并 发 的 处 理 。 大 部 分 应 用 程序 , 除了 多 
线程 应 用 程序 之 外 , 通常 是 顺序 执行 的 从头 到 尾 , 而 不 需要 关心 因为 其 他 一 些 事情 的 
发 生 会 改变 它们 的 运行 环境 。 内 核 代码 并 不 在 这 样 一 个 简单 世界 中 运行 , 即使 是 最 简单 
的 内 核 模块 ， 都 需要 在 编写 时 铭记 : 同一 时 刻 ， 可 能 会 有 许多 事情 正在 发 生 。 


有 几 方 面 的 原因 促使 内 核 编程 必须 考虑 并 发 问题 。 首 先 ，Linux 系统 中 通常 正在 运行 多 
个 并 发 进程 , 并 且 可 能 有 多 个 进程 同时 使 用 我 们 的 驱动 程序 。 其 次 , 大 多 数 设备 能 够 中 
断 处 理 器 , 而 中 断 处理 程 序 异步 运行 , 而 且 可 能 在 驱动 程序 正 试图 处 理 其 他 任务 时 被 调 
用 。 另 外 , 有 一 些 软 件 抽 象 (比如 第 七 章 中 谈 到 的 内 核定 时 器 ) 也 在 异步 运行 着 . 还 有 ， 
Linux 还 可 以 运行 在 对 称 多 处 理 器 ({Symmetric multiprocessor，SMP) 系统 上 ， 因 此 可 
能 同时 有 不 止 一 个 CPU 运行 我 们 的 驱动 程序 。 最 后 , 在 2.6 中 内 核 代 码 已 经 是 可 抢占 的 ， 
这 意味 着 即使 在 单 处 理 器 系统 上 也 存在 许多 类 似 多 处 理 器 系统 的 并 发 问题 。 


结果 ，Linux 内 核 代 码 (包括 驱动 程序 代码 ) 必须 是 可 重 入 的 ， 它 必须 能 够 同时 运行 在 ， 
多 个 上 下 文中 。 因此, 内 核 数据 结构 需要 仔细 设计 才能 保证 多 个 线程 分 开 执行 , 访问 共 
享 数 据 的 代码 也 必须 避免 破坏 共享 数据 。 要 编写 能 够 处 理 并 发 问题 而 同时 避免 竟 态 (不 
同 的 执行 顺序 导致 不 同 的 、 非 预期 行为 发 生 的 情况 ) 的 代码 , 需要 一 些 技巧 和 细致 的 思 
考 。 对 编写 正确 的 内 核 代码 来 说 ,优良 的 并 发 管理 是 必需 的 ; 为 此 , 本 书 中 的 示例 驱动 
程序 在 编写 时 都 考虑 到 了 并 发 问题 。 在 讲 到 这 些 驱动 程序 时 , 我 们 将 具体 介绍 所 使 用 的 
技术 。 本 书 第 五 章 还 会 专门 讨论 并 发 问题 以 及 内 核 中 用 于 并 发 管理 的 原 语 。 
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驱动 程序 编写 人 员 所 犯 的 一 个 常见 错误 是 , 认为 只 要 某 段 代码 没有 进入 睡 卢 状态 (或 者 
阻塞 ), 就 不 会 产生 并 发 问题 . 但 即使 在 先前 的 非 抢 占 式 内 核 中 , 这 种 假定 也 是 错误 的 。 
在 2.6 中 ， 内核 代码 (几乎 ) 始终 不 能 假定 在 给 定 代 码 段 中 能 够 独占 处 理 器 。 如 果 在 编 
写 代码 时 我 们 不 注意 并 发 问题 ， 将 可 能 导致 出 现 很 难 调试 的 灾难 性 错误 。 


当前 进程 

虽然 内 核 模块 不 像 应 用 程序 那样 顺序 地 执行 ,然而 内 核 执行 的 大 多 数 操作 还 是 和 某 个 特 
定 的 进程 相关 。 内 核 代 码 可 通过 访问 全 局 项 current 来 获得 当前 进程 。current 在 
<asm.current.h> 中 定义 ， 是 一 个 指向 struct task_struct 的 指针 , 而 task_struct 
结构 在 <linux/sched.h> 文 件 中 定义 。 current 指针 指向 当前 正在 运行 的 进程 。 在 open、 
read 等 系统 调用 的 执行 过 程 中 ， 当 前 进程 指 的 是 调用 这 些 系统 调用 的 进程 。 如 果 需 要 ， 
内 核 代 码 可 以 通过 current 获 得 与 当前 进程 相关 的 信息 ,在 第 六 章 中 将 会 介绍 这 样 一 个 
例子 。 


实际 上 , 与 早期 Linux 内 核 版 本 不 同 ，2.6 中 current 不 再 是 一 个 全 局 变量 。 为 了 支持 
SMP 系统 ， 内 核 开发 者 设计 了 一 种 能 找到 运行 在 相关 CPU 上 的 当前 进程 的 机 制 。 这 种 
机 制 必 须 是 快速 的 ， 因 为 对 current 的 引用 会 频繁 发 生 。 这 样 ， 一 种 不 依赖 于 特定 架 
构 的 机 制 通常 是 , 将 指向 task_stzruct 结 构 的 指针 隐藏 在 内 核 栈 中 。 这 种 实现 的 细节 同 
样 也 对 其 他 内 核子 系统 隐藏 ,设备 驱动 程序 只 要 包含 <linux/sched.h> 头 文件 即 可 引用 当 
前 进程 。 例 如 ， 下 面 的 语句 通过 访问 Struct task_struct 的 某 些 成 员 来 打印 当前 进 
程 的 进程 ID 和 命令 名 : 


Printk(KERN_INFO "The process is \"%s\" (pid $%i)\n", 
current->comm, current->pid}); 


存储 在 current->comm 成 员 中 的 命令 名 是 当前 进程 所 执行 的 程序 文件 的 基本 名 称 (base 
name ) ， 如 果 必 要 ， 会 裁剪 到 15 个 字符 以 内 。 


其 他 一 些 细节 


内 核 编程 在 许多 方面 区 别 于 用 户 空间 的 编程 , 我 们 将 在 本 书 中 逐步 讨论 这 些 区 别 。 有 一 
些 基本 的 问题 需要 在 这 里 说 明 一 下 , 尽管 没有 专门 的 章节 对 这 些 问题 进行 讨论 , 但 仍 值 
得 一 提 。 另 外 ， 在 读者 深入 到 内 核 的 同时 ， 还 应 该 时 刻 牢记 下 面 讲 到 的 这 些 问题 。 


应 用 程序 在 虚拟 内 存 中 布局 , 并 具有 一 块 很 大 的 栈 空间 。 当 然 , 栈 是 用 来 保存 函数 调用 
历史 以 及 当前 活动 函数 中 的 自动 变量 的 。 而 相反 的 是 ,内 核 具 有 非常 小 的 栈 ， 它 可 能 只 
和 一 个 4096 字 节 大 小 的 页 那样 小 ,我 们 自己 的 函数 必须 和 整个 内 核 空 间 调用 链 一 同 共享 
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这 个 栈 。 因 此 ， 声 明 大 的 自动 变量 并 不 是 一 个 好 主意 ， 如 果 我 们 需要 大 的 结构 ， 则 应 该 
在 调用 时 动态 分 配 该 结构 。 


读者 经 常会 在 内 核 API 中 看 到 具有 两 个 下 划 线 前 缀 (__) 的 函数 名 称 。 具有 这 种 名 称 的 
函数 通常 是 接口 的 底层 组 件 ， 应 谨慎 使 用 。 实 质 上 ,， 双 下 划 线 告诉 程序 员 :“ 说 慎 调 用 ， 
否则 后 果 自 负 。” 


内 核 代码 不 能 实现 浮 点 数 运算 。 如 果 打 开 了 浮 点 支持 , 在 某 些 架构 上 ,需要 在 进入 和 退 
出 内 核 空间 时 保存 和 恢复 浮 点 处 理 器 的 状态 , 这 种 额外 的 开销 没有 任何 价值 , 内 核 代码 
中 也 不 需要 浮 点 运算 。 


本 章 开始 处 的 “hello world” 示例 说 明了 构造 模块 并 将 其 装载 人 系统 的 简单 演示 。 当然 ， 
整个 过 程 还 需要 进一步 向 读者 说 明 。 这 一 小 节 将 详细 介绍 模块 作者 如 何 将 源 代码 编译 成 
能 够 装载 到 内 核 中 的 可 执行 模块 。 


编译 模块 

首先 , 我 们 要 简单 看 看 模块 是 如 何 构造 的 。 模块 的 构造 过 程 和 用 户 空间 应 用 程序 的 构造 
过 程 有 很 大 的 不 同 。 内 核 是 一 个 大 的 、 独 立 的 程序 ,为 了 将 它 的 各 个 片断 放 在 一 起 ,要 
满足 很 多 详细 而 明确 的 要 求 。 和 先前 的 内 核 版 本 相 比 , 构造 过 程 也 有 所 不 同 ; 新 的 构造 
系统 用 起 来 更 加 简单 ,并 可 产生 更 加 正确 的 结果 ,但 看 起 来 和 先前 的 方法 有 很 大 的 不 同 。 
内 核 的 构造 系统 是 个 复杂 的 “野兽 ”， 我 们 看 到 的 只 是 其 中 之 一 小 部 分 。 如 果 读 者 希望 
理解 这 些 表 面 现象 之 下 的 所 有 细节 , 则 应 该 阅读 内 核 源 代码 中 Documentation/kbuild 目 
录 下 的 文件 。 


在 构造 内 核 模块 之 前 ， 有 一 些 先 决 条 件 首先 应 该 得 到 满足 。 首 先 , 读者 应 确保 具备 了 正 
确 版 本 的 编译 器 、 模 块 工具 和 其 他 必要 的 工具 。 内 核 文 档 目 录 中 的 Documentation/ 
Changes 文件 列 出 了 需要 的 工具 版 本 ; 在 开始 构造 模块 之 前 ,读者 需要 查看 该 文件 并 确 
保 已 安装 了 正确 的 工具 。 如 果 利 用 错误 的 工具 版 本 来 构造 内 核 (及 其 模块 ) ， 将 导致 许 
多 细微 的 、 复 杂 的 问题 。 另 外 还 需 注 意 ， 和 使 用 老 工具 一 样 ,使 用 太 新 的 工具 也 偶尔 会 
导致 问题 ; 内 核 源 代码 对 编译 器 作 了 大 量 假 定 , 因此 新 的 编译 器 版 本 可 能 导致 问题 的 出 
现 。 


如 果 读 者 尚未 准备 内 核 树 , 或 者 尚未 配置 并 构造 内 核 , 则 应 该 首先 完成 这 些 工作 。 如 果 
在 自己 的 文件 系统 中 没有 2.6 内 核 树 ， 则 无 法 构造 可 装载 的 模块 。 另 外 ， 尽 管 并 不 是 必 
需 的 ， 但 最 好 运行 和 模块 对 应 的 内 核 。 
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在 准备 好 这 些 东西 后 ,为 自己 的 模块 创建 makefile 则 非常 简单 。 实 际 上 ， 对 本 章 先 前 给 
出 的 “hello world” 示 例 来 说 ， 下 面 一 行 就 是 以 了 : 


obj-m := hello.o 


如 果 读 者 熟悉 make 但 对 2.6 内 核 构 造 系 统 还 不 熟悉 的 话 , 则 可 能 会 对 此 makefile 的 工作 
方式 感到 疑惑 。 毕 竞 上 面 这 行 并 不 是 makefile 文 件 的 常见 形式 。 问题 的 答案 当然 是 内 核 
构造 系统 处 理 了 其 余 的 问题 。 上 面 的 赋值 语句 ( 它 利 用 了 GNU make 的 扩展 语法 ) 说 明 
了 有 一 个 模块 需要 从 目标 文件 hello.o 中 构造 ， 而 从 该 目标 文件 中 构造 的 模块 名 称 为 
heflio.Ko。 


如 果 我 们 要 构造 的 模块 名 称 为 module.ko, 并 由 两 个 源 文 件 生 成 (比如 fieli.c 和 file2.c)， 
则 正确 的 makefile 可 如 下 编写 : 

obj-m := module.o 

module-objs := filei.o file2.o 
为 了 让 上 面 这 种 类 型 的 makefile 文 件 正常 工作 , 必须 在 大 的 内 核 构造 系统 环境 中 调用 它 
们 。 如 果 读 者 的 内 核 源 代码 树 保存 在 ~/kernel-2.6 目 录 中 ， 则 用 来 构造 模块 的 make 命 令 
应 该 是 (在 包含 模块 源 代码 和 makefile 的 目录 中 键入 ): 


make -C ~/kernel-2.6 M= pwd”modules 


上 述 命 令 首先 改变 目录 到 -C 选 项 指定 的 位 置 ( 即 内 核 源 代码 目录 ), 其 中 保存 有 内 核 的 
顶层 makefile 文 件 。M= 选项 让 该 makefile 在 构造 modules 目标 之 前 返回 到 模块 源 代码 
目录 。 然 后 ，modueles 目标 指向 obj -m 变量 中 设 定 的 模块 ， 在 上 面 的 例子 中 ， 我 们 
将 该 变量 设置 成 了 module.o。 


上 面 这 样 的 make 命令 还 是 有 些 烦人 ， 因 此 内 核 开发 者 又 开发 了 一 种 makefile 方 法， 这 
种 方法 将 使 得 内 核 树 之 外 的 模块 构造 变 得 更 加 容易 。 其 技巧 是 用 下 面 的 方法 来 编写 


makefile: 


# 如 果 已 定义 KERNELRELEASE， 则 说 明 是 从 内 核 构造 系统 调用 的 ， 
# 因此 可 利用 其 内 建 语句 。 
ifneq (S$ (KERNELRELEASE),) 

obj-m := hello.o 


# 否则 ， 是 直接 从 命令 行 调用 的 ， 
# 这 时 要 调用 内 核 构 造 系统 。 


else 


KERNELDIR ?= /lib/modules/$ {shell uname -r)/build 
PWD := $(shell pwd) 
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default: 
${MAKE) -C S$ (KERNELDIR) M=$ (PWD) modules 


endif 


这 次 , 我 们 又 看 到 了 扩展 GNU make 语法 。 在 一 个 典型 的 构造 过 程 中 , 该 makefile 将 被 
读 取 两 次 。 当 makefile 从 命令 行 调用 时 ， 它 注意 到 KENRELRELEASE 变量 尚未 设置 。 我 
们 可 以 注意 到 , 已 安装 的 模块 目录 中 存在 一 个 符号 链接 ， 它 指向 内 核 的 构造 树 ， 这 样 这 
个 makefile 就 可 以 定位 内 核 的 源 代码 目录 。 如 果 读 者 实际 运行 的 内 核 并 不 是 要 构造 的 内 
核 ， 则 可 以 在 命令 行 提供 KERNELDIR= 选项 或 者 设置 KERNELDIR 环境 变量 ， 也 可 以 
修改 用 来 设置 KERNELDIR 的 行 。 在 找到 内 核 源 代码 树 之 后 ， 这 个 makefile 会 调用 
default :目标 ， 这 个 目标 使 用 先前 描述 过 的 方法 第 二 次 运行 make 命令 (注意 ， 在 这 
个 makefile 中 make 命令 被 参数 化 成 了 $ {MAKE) )， 以 便 运 行内 核 构造 系统 。 在 第 二 次 
读 取 访 makefile 文件 时 ， 它 设置 了 obj -m， 而 内 核 的 makefile 负责 真正 构造 模块 。 


这 种 构造 模块 的 机 制 也 许 会 因为 其 笨拙 或 星 涩 的 特点 而 打击 读者 。 但 是 , 一 旦 我 们 使 用 
这 种 机 制 , 则 会 欣赏 内 核 构 造 系 统 带 给 我 们 的 便利 。 需要 注意 的 是 ， 上面 的 makefile 并 
不 完整 ; 一 个 真正 的 makefile 应 该 包含 通常 用 来 清除 无 用 文件 的 目标 、 安装 模块 的 目标 
等 等 。 读 者 可 以 在 示例 源 代码 目录 中 看 到 完整 的 makefile 文件 。 


装载 和 印 载 模块 


在 构造 模块 之 后 , 下 一 步 就 是 将 模块 装 人 人 内核。 如 前 所 述 , insmod 为 我 们 完成 这 项 工作 。 
insmod 程 序 和 id 有些 类 似 , 它 将 模块 的 代码 和 数据 装 入 内 核 , 然后 使 用 内 核 的 符号 表 解 
析 模 块 中 任何 未 解析 的 符号 。 然 而 ,与 链接 器 不 同 ， 内 核 不 会 修改 模块 的 磁盘 文件 ,而 
仅仅 修改 内 存 中 的 副本 。insmod 可 以 接受 一 些 命令 行 选项 (参见 它 的 手册 页 )， 并 且 可 
以 在 模块 链接 到 内 核 之 前 给 模块 中 的 整 型 和 字符 串 型 变量 赋值 。 因 此, 一 个 良好 设计 的 
模块 可 以 在 装载 时 进行 配置 , 这 比 编译 时 的 配置 为 用 户 提供 了 更 多 的 灵活 性 , 但 有 些 情 
况 下 仍然 要 使 用 编译 时 的 配置 。 本 章 后 面 的 “模块 参数 ”一 节 中 会 介绍 装载 时 的 配置 方 
法 。 


感 兴趣 的 读者 可 能 想 知道 内 核 是 如 何 支 持 insmod 工作 的 ， 实 际 上 它 依赖 于 定义 在 
kernelimodule.c 中 的 一 个 系统 调用 。 函 数 sys_init_module 给 模块 分 配 内 核 内 存 ( 函数 
vmalloc 负责 内 存 分 配 , 详 见 第 八 章 的 “vmalloc 及 其 相关 函数 ”) 以 便装 载 模块 ,然后 ， 
该 系统 调用 将 模块 正文 复制 到 内 存 区域 , 并 通过 内 核 符号 表 解 析 模 块 中 的 内 核 引 用 , 最 
后 调用 模块 的 初始 化 函数 。 


如 果 仔 细 阅 读 内 核 源码 ,我 们 会 发 现 有 且 只 有 系统 调用 的 名 字 前 带 有 sys- 前 组 ， 而 其 
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他 任何 函数 都 没有 这 个 前 组 。 这 种 命名 上 的 区 别 使 我 们 在 源码 中 grep 系 统 调用 时 非常 方 
便 。 


我 们 还 需要 进一步 了 解 一 下 modprobe 工 具 。 和 insmod 类 似 , modprobe 也 用 来 将 模块 装 
载 到 内 核 中 。 它 和 insmod 的 区 别 在 于 , 它 会 考虑 要 装载 的 模块 是 否 引 用 了 一 些 当 前 内 核 
不 存在 的 符号 。 如果 有 这 类 引用 , modprobe 会 在 当前 模块 搜索 路 径 中 查找 定义 了 这 些 符 
号 的 其 他 模块 。 如 果 modprobe 找到 了 这 些 模块 ( 即 要 装载 的 模块 所 依赖 的 模块 ), 它 会 
同时 将 这 些 模 块 装载 到 内 核 。 如 果 在 这 种 情况 下 使 用 insmod, 则 该 命令 会 失败 , 并 在 系 
统 日 志文 件 中 记录 “unresolved symbols (未 解析 的 符号 )” 消 息 。 


前 面 提 到 , 我 们 可 以 使 用 rmmod 工 具 从 内 核 中 移 除 模块 。 注意 , 如 果 内 核 认 为 模块 仍然 
在 使 用 状态 (例如 ， 某 个 程序 正 打 开 由 该 模块 导出 的 设备 文件 )， 或 者 内 核 被 配置 为 禁 
止 移 除 模块 ， 则 无 法 移 除 该 模块 。 配置 内 核 并 使 得 内 核 在 模块 忙 的 时 候 仍 能 “强制 ” 移 
除 模 块 也 是 可 能 的 。 但是, 如 果 读 者 在 某 种 情况 下 希望 利用 这 种 特性 , 则 重新 引导 系统 
可 能 是 更 加 合适 的 做 法 。 


lsmod 程序 列 出 当前 装载 到 内 核 中 的 所 有 模块 ， 还 提供 了 其 他 一 些 信息 ， 比 如 其 他 模块 
是 不 是 在 使 用 某 个 特定 模块 等 。!smod 通过 读 取 /proc/imodules 虚拟 文件 来 获得 这 些 信 
息 。 有 关 当 前 已 装载 模块 的 信息 也 可 以 在 sysfs 虚拟 文件 系统 的 /sys/module 下 找到 。 


版 本 依赖 


要 记 住 ,在 缺少 modversions 的 情况 下 , 我 们 的 模块 代码 必须 针对 要 链接 的 每 个 版 本 的 
内 核 重新 编译 。 我 们 不 在 这 里 讨论 modversions ， 因 为 和 开发 者 相 比 ， 它 对 发 行 版 制作 
者 来 讲 更 重要 些 。 模块 和 特定 内 核 版 本 定义 的 数据 结构 和 函数 原型 紧密 关联 , 这 样 , 一 
个 模块 看 到 的 接口 可 能 从 一 个 版 本 到 另 一 个 版 本 发 生 重大 的 变化 。 当 然 , 这 种 情况 对 开 
发 中 的 内 核 来 讲 更 是 如 此 。 


内 核 不 会 假定 一 个 给 定 的 模块 是 针对 正确 的 内 核 版 本 构造 的 。 我 们 在 构造 过 程 中 , 可 以 
将 自己 的 模块 和 当前 内 核 树 中 的 一 个 文件 ( 即 vermagic.o ) 链接 ; 该 目标 文件 包含 了 大 
量 有 关内 核 的 信息 , 包括 目标 内 核 版 本 、 编 译 器 版 本 以 及 一 些 重要 配置 变量 的 设置 。 在 
试图 装载 模块 时 , 这 些 信 息 可 用 来 检查 模块 和 正在 运行 的 内 核 的 兼容 性 。 如 果 有 任何 不 
匹配 ， 就 不 会 装载 该 模块 ， 同 时 可 以 看 到 如 下 信息 : 

# insmod hello.ko 

Error inserting './hello.ko': -1 Invalid module format 
查看 系统 日 志文 件 (/var/iog/messages 或 者 系统 配置 使 用 的 文件 ), 将 看 到 导致 模块 装载 
失败 的 具体 原因 。 
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如 果 读 者 要 为 某 个 特定 的 内 核 版 本 编译 模块 , 则 需要 该 特定 版 本 对 应 的 构造 系统 和 源 代 
码 树 。 对 前 面 示 例 makefile 中 KERNELDIR 变量 的 简单 修改 可 以 实现 这 个 目的 。 


在 不 同 的 发 布 之 间 , 内 核 接 口 经 常会 发 生变 化 。 如 果 读 者 打算 编写 一 个 能 够 和 多 个 内 核 
版 本 一 起 工作 的 模块 (尤其 是 必须 跨 主 发 行 号 工作 ), 则 必须 使 用 宏 以 及 #ifdef 来 构造 
并 编译 自己 的 代码 。 本 书 的 这 一 版 本 仅仅 关心 内 核 的 一 个 主 发 行 号 , 因此 读者 不 会 在 示 
例 代码 中 经 常 看 到 版 本 测试 的 相关 代码 。 但 是 这 种 需求 还 是 会 偶尔 出 现在 这 种 情况 个， 
读者 可 使 用 linuxiversion.h 中 的 相关 定义 。 这 个 头 文件 自动 包含 于 Linux/module.h, 并 定 
义 了 下 面 这 些 宏 : 


UTS_RELEASE 
宏 UTS_RELEASE 扩 展 为 一 个 描述 内 核 版 本 的 字符 串 ，、 例 如 "2.6.10"。 
LINUX_VERSION_CODE 
宏 LINUX_VERSION_CODE 扩 展 为 内 核 版 本 的 二 进 制 表示 ,版 本 发 行 号 中 的 每 一 部 
分 对 应 一 个 字 节 。 例 如 ，2.6.10 对 应 的 LINUX_VERSION_CODE 是 132618 ( 即 
0x02060a) ( 注 2)。 使 用 这 个 宏 ， 我 们 很 容易 确定 正在 使 用 的 内 核 版 本 。 


KERNEL_VERSION (major,minor, release) 
宏 KERNEL_VERSION 以 组 成 版 本 号 的 三 部 分 (三 个 整数 ) 为 参数 ， 创 建 整数 的 版 
本 号 。 例 如，KERNEL_VERSION(2,6,10) 扩 展 为 132618。 这 个 宏 在 我 们 需要 将 当 
前 版 本 和 一 个 已 知 的 检查 点 比较 时 非常 有 用 。 


通过 检查 KERNEL_VERSION 和 LINUX_VERSION_CODE 而 使 用 预 处 理 条 件 ， 能 够 解决 大 
部 分 基于 内 核 版 本 的 依赖 性 问题 。 然而 , 我 们 不 应 该 胡乱 使 用 #ifdef 条 件 语句 将 整个 
驱动 程序 代码 弄 得 杂乱 无 章 .最 好 的 一 个 解决 方法 就 是 将 所 有 相关 的 预 处 理 条 件 语句 集 
中 存放 在 一 个 特定 的 头 文件 里 。 一 般 而 言 ,依赖 于 特定 版 本 (或 平台 ) 的 代码 应 该 隐藏 
在 低层 宏 或 者 函数 之 后 。 之 后 ， 高 庆 代 码 可 直接 调用 这 些 函 数 ， 而 无 需 关注 低层 细节 。 
用 这 种 方式 编写 的 代码 便于 阅读 ， 同 时 更 为 健壮 。 


台 依 赖 


每 种 计算 机 平台 都 有 自己 的 独特 特性 ,内 核 设 计 者 可 以 充分 利用 这 些 特 性 来 达到 目标 平 
台 上 目标 文件 的 最 优 性 能 。 


对 于 应 用 程序 开发 人 员 ,他们 必须 将 程序 代码 和 预 编译 过 的 库 链接 并 且 遵 循 参 数 传递 规 
则 。 而 内 核 开 发 人 员 则 不 同 , 他 们 可 以 根据 不 同 需求 将 某 些 寄存 器 指定 为 特定 用 途 一 一 





注 2; 这 允许 在 稳定 版 本 之 间 可 存在 256 个 开发 版 本 。 
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实际 土 他 们 也 的 确 这 么 做 了 .而 且 内 核 代 码 可 以 针对 某 个 CPU 家 族 的 某 种 特定 处 理 器 进 
行 优化 ,从 而 充分 利用 目标 平台 的 特性 。 和 应 用 程序 以 二 进 制 形式 的 发 布 不 同 , 内 核 需 
要 发 布 源码 ， 针 对 目标 平台 定制 编译 后 才能 达到 对 某 个 特定 计算 机 集合 的 优化 。 


例如 ，IA32 (x86) 架构 可 划分 为 几 个 不 同 的 处 理 器 类 型 。 老 的 80386 处 理 器 至 今 仍然 
被 支持 着 ,尽管 从 现代 标准 来 讲 ， 它 的 指令 集 相对 受 限 。 这 种 架构 上 更 为 现代 的 处 理 器 
已 经 引入 了 大 量 新 的 能 力 , 包括 进入 内 核 的 更 快 指令 、 进 程 间 锁定 指令 、 数 据 复制 指令 
等 等 。 更 新 的 处 理 器 (使 用 正确 的 模式 ) 还 能 够 处 理 36 位 (或 者 更 大 ) 的 物理 地 址 ， 从 
而 允许 处 理 器 寻 址 高 于 4GB 的 物理 内 存 。 其 他 处 理 器 家 族 也 存在 类 似 的 增强 。 根据 不 同 
的 配置 选 现 ， 内 核 可 以 使 用 这 些 附 加 的 功能 。 


显然 ， 如 果 模 块 和 某 个 给 定 内 核 工 作 ， 它 也 必须 和 内 核 一 样 了 解 目标 处 理 器 。 这 样 ， 
vermagic.0 可 再 次 帮助 我 们 。 在 装载 模块 时 ,内 核 会 检查 处 理 器 相关 的 配置 选项 以 便 确 
保 模块 匹配 于 运行 中 的 内 核 。 如 果 模 块 在 不 同 选 项 下 编译 ， 则 不 会 装载 该 模块 。 


如 果 读 者 打算 编写 一 个 驱动 程序 用 于 一 般 性 的 发 布 , 则 最 好 考虑 好 如 何 支 持 可 能 的 不 同 
处 理 器 变种 。 当 然 , 最 好 的 办 法 是 用 GPL 兼容 许可 证 来 发 布 自己 的 驱动 程序 , 并 将 其 贡 
献 给 内 核 主 分 支 。 如 果 不 打算 这 么 做 , 以 源 代码 形式 及 一 组 用 于 编译 的 脚本 发 布 自己 的 
驱动 程序 则 是 最 好 的 办 法 。 许 多 供应 商 已 发 布 了 一 些 工 具 使 得 这 个 工作 变 得 更 加 容易 。 
如 果 读 者 必须 以 二 进 制 方式 发 布 自己 的 驱动 程序 , 则 需要 检查 目标 发 行 版 提供 的 不 同 内 
核 , 并 为 每 个 内 核 提 供 模块 的 一 个 版 本 。 也 请 关注 自发 行 版 生产 以 来 厂商 已 发 布 的 任何 
勘误 内 核 。 当 然 ， 正 如 第 一 章 “ 许 可 证 条 款 ” 中 所 讨论 的 ， 许 可 证 问题 也 需要 考虑 到 。 
作为 常规 ， 以 源 代码 形式 发 布 自己 的 作品 是 最 容易 被 其 他 人 接受 的 方式 。 


内 核 符号 表 


在 上 面 的 讨论 中 , 我 们 了 解 到 insmod 使 用 公共 内 核 符号 表 来 解析 模块 中 未 定义 的 符号 。 
公共 内 核 符号 表 中 包含 了 所 有 的 全 局 内 核 项 ( 即 函 数 和 变量 ) 的 地 址 , 这 是 实现 模块 化 
驱动 程序 所 必需 的 。 当 模块 被 装 人 内 核 后 , 它 所 导出 的 任何 符号 都 会 变 成 内 核 符 号 表 的 
一 部 分 。 在 通常 情况 下 ,模块 只 需 实现 自己 的 功能 ,而 无 需 导出 任何 符号 。 但 是 ， 如果 
其 他 模块 需要 从 某 个 模块 中 获得 好 处 时 ， 我 们 也 可 以 导出 符号 。 


新 模块 可 以 使 用 由 我 们 自己 的 模块 导出 的 符号 , 这 样 , 我 们 可 以 在 其 他 模块 上 层 登 新 的 
模块 。 模 块 层 倒 技术 也 使 用 在 很 多 主流 的 内 核 源 代码 中 。 例 如 ，msdos 文件 系统 依赖 于 
由 jar 模块 导出 的 符号 ; 而 每 个 USB 输入 设备 模块 层 登 在 usbcore 和 input 模块 之 上 。 


模块 野 公 技术 在 复杂 的 项 目 中 非常 有 用 。 如 果 以 设备 驱动 程序 的 形式 实现 一 个 新 的 软件 
抽象 ， 则 可 以 为 硬件 相关 的 实现 提供 一 个 “插头 ”。 例如 ，video-for-linux 驱动 程序 组 划 
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分 出 了 一 个 通用 模块 , 它 导出 的 符号 可 供 下 层 与 具体 硬件 相关 的 驱动 程序 使 用 。 根 据 所 
安装 的 硬件 的 不 同 , 我 们 加 载 通用 的 video 模 块 以 及 与 具体 硬件 相关 的 特定 模块 。 另 外 ， 
并 口 支持 以 及 大 量 可 插 拔 设备 的 处 理 (比如 USB 内 核子 系统 ) 都 使 用 了 类 似 的 层 登 方 
法 。 图 2-2 中 给 出 了 并 口子 系统 中 的 层 伙 方式 , 箭头 显示 了 模块 之 间 以 及 和 内 核 编程 接 
口 之 间 的 通信 情况 。 








图 2-2: 并 口 驱 动 程序 模块 的 层 登 


modprobe 是 处 理 层 登 模 块 的 一 个 实用 工具 。 它 的 功能 在 很 大 程度 上 和 insmod 类 似 , 但 
是 它 除 了 装 入 指定 模块 外 还 同时 装 入 指定 模块 所 依赖 的 其 他 模块 。 因 此 , 一 个 modprobe 
命令 有 时 候 相当 于 调用 几 次 insmod 命 令 (然而 , 在 从 当前 目录 装 和 人 自己 的 模块 时 仍然 需 
要 使 用 insmod, 因为 modprobe 只 能 从 标准 的 已 安装 模块 目录 中 搜索 需要 装 入 的 模块 )。 


通过 上 述 层 登 技 术 ， 我 们 可 以 将 模块 划分 为 多 个 层 ， 通 过 简化 每 个 层 可 缩短 开发 时 间 。 
这 种 方法 和 我 们 在 第 一 章 中 提 到 的 机 制 和 策略 的 分 离 有 点 类 似 。 


Linux 内 核 头 文件 提供 了 一 个 方便 的 方法 来 管理 符号 对 模块 外 部 的 可 见 性 ， 从 而 减少 了 
可 能 造成 的 名 字 空间 污染 ( 名 字 空 间 中 的 名 称 可 能 会 和 内 核 其 他 地 方 定义 的 名 称 发 生 冲 
突 )， 并 且 适 当 隐 藏 信息 。 如 果 一 个 模块 需要 向 其 他 模块 导出 符号 ， 则 应 该 使 用 下 面 的 
宏 。 


EXPORT_SYMBOL (name); 
EXPORT_SYMBOL_GPL (name); 


这 两 个 宏 均 用 于 将 给 定 的 符号 导出 到 模块 外 部 。_GPL 版 本 使 得 要 导出 的 模块 只 能 被 
GPL 许可 证 下 的 模块 使 用 。 符号 必须 在 模块 文件 的 全 局 部 分 导出 ,不 能 在 函数 中 导出 ， 
这 是 因为 上 面 这 两 个 宏 将 被 扩展 为 一 个 特殊 变量 的 声明 , 而 该 变量 必须 是 全 局 的 。 该 变 
量 将 在 模块 可 执行 文件 的 特殊 部 分 ( 即 一 个 “ELF 段 ") 中 保存 ， 在 装载 时 ， 内 核 通过 
这 个 段 来 寻找 模块 导出 的 变量 ( 感 兴趣 的 读者 可 以 查阅 <linux/module.h> 获 得 更 详细 的 
信息 )。 
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多 
预备 知识 
我 们 离 真 正 的 模块 代码 越 来 越 近 了 。 但 是 , 我 们 首先 还 需要 了 解 其 他 一 些 需 要 在 模块 源 


代码 文件 中 出 现 的 东西 。 内 核 是 一 个 特定 的 环境 , 对 需要 和 它 接口 的 代码 有 其 自己 的 一 


大 部 分 内 核 代码 中 都 要 包含 相当 数量 的 头 文件 ,以 便 获得 函数 、 数 据 类 型 和 变量 的 定义 。 
我 们 将 在 用 到 这 些 文件 时 向 读者 介绍 , 但 有 几 个 头 文 件 是 专门 用 于 模块 的 , 因此 必须 出 
现在 每 个 可 装载 的 模块 中 。 故 而 ， 所 有 的 模块 代码 中 都 包含 下 面 两 行 代码 : 


#include <linux/module.h> 
#include <linux/init.h> 


module.h 包 含有 可 装载 模块 需要 的 大 量 符号 和 消 数 的 定义 。 包含 init.h 的 目的 是 指定 初 
始 化 和 清除 函数 ,就 像 我 们 在 “hello world” 示 例 模块 中 看 到 的 那样 ， 下 面 的 小 节 中 我 
们 还 将 再 次 看 到 。 大 部 分 模块 还 包括 moduleparam.h 头 文件 , 这 样 我 们 就 可 以 在 装载 模 
块 时 向 模块 传递 参数 ; 我 们 马上 就 可 以 看 到 如 何 具体 使 用 。 


尽管 不 是 严格 要 求 的 ， 但 模块 应 该 指定 代码 所 使 用 的 许可 证 。 为 此 ,我们 只 需要 包含 
MODULE_LICENSE 行 : 


MODULE_LICENSE{"GPL"); 


内 核能 够 识别 的 许可 证 有 “GPL” ( 任 一 版 本 的 GNU 通 用 公共 许可 证 )、“GPL v2” (GPL 
版 本 2)、“GPL and additional rights (GPL 及 附加 权利 )”、“Dual BSD/GPL (BSD/GPL 
双重 许可 证 )”、“Dual MPL/GPL (MPL/GPL 双 重 许可 证 )” 以 及 “Proprietary ( 专 有 )”。 
如 果 一 个 模块 没有 显 式 地 标记 为 上 述 内 核 可 识别 的 许可 证 , 则 会 被 假定 是 专 有 的 , 而 内 
核 装载 这 种 模块 就 会 被 “污染 "。 如 同 我 们 在 第 一 章 “ 许 可 证 条 款 ” 中 提 到 的 ， 内 核 开 
发 者 不 太 愿意 帮助 因为 装载 专 有 模块 而 遇 到 问题 的 用 户 。 


可 在 模块 中 包含 的 其 他 描述 性 定义 包括 MODULE_AUTHOR (描述 模块 作者 )、MODULE_ 
DESCRIPTION ( 用 来 说 明 模块 用 途 的 简短 描述 )、MODULE_VERSION (代码 修订 号 ; 有 关 
版 本 字符 串 的 创建 惯例 , 请 参考 <linux/module.h> 中 的 注释 )、MODULE_ALIAS (模块 的 
别名 ) 以 及 MODULE_DEVICE_TABLE (用 来 告诉 用 户 空间 模块 所 支持 的 设备 )。 我 们 将 在 
第 十 一 章 讨论 MODULE_ALIAS， 并 在 第 十 二 章 讨 论 MODULE_DEVICE_TABLE。 


上 述 MODULE_ 声 明 可 出 现在 源 文件 中 源 代码 函数 以 外 的 任何 地 方 。 但 新 近 的 内 核 编码 习 
惯 是 将 这 些 声明 放 在 文件 的 最 后 。 
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初始 化 和 关闭 


前 面 已 经 提 到 , 模块 的 初始 化 函数 负责 注册 模块 所 提供 的 任何 设施 . 这 里 的 设施 指 的 是 
一 个 可 以 被 应 用 程序 访问 的 新 功能 , 它 可 能 是 一 个 完整 的 驱动 程序 或 者 仅仅 是 一 个 新 的 
软件 抽象 。 初 始 化 函数 的 实际 定义 通常 如 下 所 示 : 


static int 


{ 


_ init initialization_function(void)} 


/* 这 里 是 初始 化 代码 */ 
} 


module_init{initialization function); 


初始 化 函数 应 该 被 声明 为 static, 因为 这 种 函数 在 特定 文件 之 外 没有 其 他 意义 。 因 为 
一 个 模块 函数 如 果 要 对 内 核 其 他 部 分 可 见 , 则 必须 被 显 式 导 出 , 因此 这 并 不 是 什么 强制 
性 规则 。 上 述 定义 中 的 __init 标 记 看 起 来 似乎 有 点 卫生 ， 它 对 内 核 来 讲 是 一 种 暗示 ， 
表明 该 函数 仅 在 初始 化 期 间 使 用 。 在 模块 被 装载 之 后 , 模块 装载 器 就 会 将 初始 化 函数 扔 
掉 、 这样 可 将 该 函数 占用 的 内 存 释 放出 来 ， 以 作 他 用 。- _init 和 __initaata 的 使 
用 是 可 选 的 , 虽然 有 点 繁琐 , 但 是 很 值得 使 用 。 注意 , 不 要 在 结束 初始 化 之 后 仍 要 使 用 
的 函数 (或 者 数据 结构 ) 上 使 用 这 两 个 标记 。 在 内 核 源 代码 中 可 能 还 会 遇 到 _ _devinit 
和 __adevinitdata, 只 有 在 内 核 未 被 配置 为 支持 热 插 拔 设备 的 情况 下 ,这 两 个 标记 才 会 
被 翻译 为 __init 和 __initdata。 我 们 将 在 第 十 四 章 讲述 热 插 拔 支持 。 


module_init 的 使 用 是 强制 性 的 . 这 个 宏 会 在 模块 的 目标 代码 中 增加 一 个 特殊 的 段 , 用 于 
说 明 内 核 初始 化 函数 所 在 的 位 置 。 没 有 这 个 定义 ， 初 始 化 函数 永远 不 会 被 调用 。 


模块 可 以 注册 许多 不 同类 型 的 设施 , 包括 不 同类 型 的 设备 、 文 件 系 统 、 密 码 变换 等 。 对 
每 种 设施 , 对 应 有 具体 的 内 核 函 数 用 来 完成 注册 。 传 递 到 内 核 注册 函数 中 的 参数 通常 是 
指向 用 来 描述 新 设施 及 设施 名 称 的 数据 结构 指针 ,而 数据 结构 通常 包含 指向 模块 函数 的 
指针 ， 这 样 ， 模 块 体 中 的 函数 就 会 在 恰当 的 时 间 被 内 核 调用 。 


能 够 注册 的 设施 类 型 超出 了 在 第 一 章 中 给 出 的 设备 类 型 列表 ,它们 包括 串口 .杂项 设备 、 
sysfs 人 口 ，/proc 文件 、 可 执行 域 以 及 线路 规程 (line discipline) 等 。 很 多 可 注册 的 设 
施 所 支持 的 功能 属于 “软件 抽象 ”范畴 , 而 不 与 任何 硬件 直接 相关 。 这 种 类 型 的 设施 能 
够 被 注册 ， 是 因为 它们 能 够 以 某 种 方式 集成 到 驱动 程序 功能 当中 《如 /proc 文件 系统 以 
及 线路 规程 ) 。 


还 有 其 他 一 些 设施 可 以 注册 为 特定 驱动 程序 的 附加 功能 , 但 是 它们 的 用 途 有 限 , 因而 不 
在 这 里 具体 讨论 ; 它们 使 用 前 面 “ 内 核 符号 表 ” 一 节 中 提 到 的 层 全 技术。 如 果 读 者 想 进 
-- 步 了 解 ， 可 以 在 内 核 源 文件 中 grep EXPORT_SYMBOL， 并 找 出 由 不 同 驱 动 程序 提供 的 
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入 口 点 。 另外， 大 部 分 注册 函数 名 字 带 有 register_ 前 弘 , 因此 找到 它们 的 另 一 种 方 
法 是 在 内 核 源码 中 grep register_。 


清除 函数 


每 个 重要 的 模块 都 需要 一 个 清除 函数 ,该 函数 在 模块 被 移 除 前 注销 接口 并 向 系统 中 返回 
所 有 资源 。 该 函数 定义 如 下 : 
static void _ _exit cleanup_function(void) 


{ 
/* 这 里 是 清除 代码 */ 


module exit{cleanup. function); 


清除 函数 没有 返回 值 ， 因此 被 声明 为 void。__exit 修饰 词 标 记 该 代码 仅 用 于 模块 印 
载 (编译 器 将 把 该 函数 放 在 特殊 的 ELF 段 中 )。 如 果 模 块 被 直接 内 嵌 到 内 核 中 ,或 者 内 
核 的 配置 不 允许 印 载 模块 ， 则 被 标记 为 _ _exit 的 函数 将 被 简单 地 丢弃 。 出 于 以 上 原 
因 , 被 标记 为 __exit 的 函数 只 能 在 模块 被 印 载 或 者 系统 关闭 时 被 调用 , 其 他 的 任何 用 
法 都 是 错误 的 。 和 前 面 类 似 , module_exit 声 明 对 于 帮助 内 核 找到 模块 的 清除 函数 是 必需 
的 。 


如 果 一 个 模块 未 定义 清除 函数 ， 则 内 核 不 允许 卸载 该 模块 。 


初始 化 过 程 中 的 错误 处 理 


当 我 们 在 内 核 中 注册 设施 时 , 要 时 刻 铭记 注册 可 能 会 失败 。 即 使 是 最 简单 的 动作 ,都 需 
要 内 存 分 配 , 而 所 需要 的 内 存 可 能 无 法 获得 。 因此 模块 代码 必须 始终 检查 返回 值 ,并 确 
保 所 请 求 的 操作 已 真正 成 功 。 


如 果 在 注册 设施 时 遇 到 任何 错误 , 首先 要 判断 模块 是 否 可 以 继续 初始 化 。 通常 , 在 某 个 
注册 失败 后 可 以 通过 降低 功能 来 继续 运转 。 因此， 只 要 可 能 , 模块 应 该 继续 向 前 并 尽 可 
能 提供 其 功能 。 


如 果 在 发 生 了 某 个 特定 类 型 的 错误 之 后 无 法 继续 装载 模块 , 则 要 将 出 错 之 前 的 任何 注册 
工作 撤销 掉 。Linux 中 没有 记录 每 个 模块 都 注册 了 哪些 设施 ， 因 此 ， 当 模块 的 初始 化 出 
现 错误 之 后 , 模块 必须 自行 撤销 已 注册 的 设施 。 如 果 由 于 某 种 原因 我 们 未 能 撤销 已 注册 
的 设施 , 则 内 核 会 处 于 一 种 不 稳定 状态 , 这 是 因为 内 核 中 包含 了 一 些 指向 并 不 存在 的 代 
码 的 内 部 指针 。 在 这 种 情况 下 , 唯一 有 效 的 解决 办 法 是 重新 引导 系统 。 因 此 , 我 们 必须 
在 初始 化 过 程 出 现 错误 时 认真 完成 正确 的 工作 。 


错误 恢复 的 处 理 有 时 使 用 goto 语句 比较 有 效 。 通 常情 况 下 我 们 很 少 使 用 goto， 但 在 
处 理 错误 时 (可 能 是 唯一 的 情况 ) 它 却 非 常 有 用 。 错 误 情 况 下 的 goto 的 仔细 使 用 可 加 
免 大 量 复杂 的 、 高 度 缩 进 的 “结构 化 ”逻辑 。 因 此 ， 内核 经 常 使 用 goto 来 处 理 错误 。 


不 管 初始 化 过 程 在 什么 时 刻 失 败 ， 下 面 的 例子 (使 用 了 虚构 的 往 册 和 撤销 往 册 函数 ) 都 
能 正确 工作 : 


int _ _init my_init_functiont{void) 
{ 


int err; 


/* 使 用 指针 和 名 称 注册 */ 

err = register_this(ptrl, "skull"); 
if {err) goto fail this; 

err = register_ that (ptr2, “skull"); 
if (err) goto fail that; 

err = register_those (ptr3, "skull"); 
if (err) goto fail_those; 


return 0; /* 成 功 */ 


fail_those: unregister_ that (ptr2, "skull"); 

fail_that:; unregister_this(ptr1l, "skull"); 

fail_this: return err; /* 返回 错误 */ 

} 
这 段 代 码 准 备注 册 三 个 (虚构 的 ) 设施 。 在 出 错 的 时 候 使 用 goto 语句 ， 它 将 只 撤销 出 
错时 刻 以 前 所 成 功 注册 的 那些 设施 。 


另 一 种 观点 不 支持 goto 的 使 用 , 而 是 记录 任何 成 功 注册 的 设施 , 然后 在 出 错 的 时 候 调 
用 模块 的 清除 函数 。 清除 函数 将 仅仅 回 滚 已 成 功 完成 的 步骤 。 然 而 , 这 种 赫 代 方法 需要 
更 多 的 代码 和 CPU 有 时间, 因此 在 追求 效率 的 代码 中 使 用 goto 语 句 仍然 是 最 好 的 错误 恢 
复 机 制 。 


my_init_module 的 返回 值 err 是 一 个 错误 编码 。 在 Linux 内 核 中 ， 错 误 编 码 是 定义 在 
<linux/errno.h> 中 的 负 整 数 。 如 果 我 们 不 想 使 用 其 他 函数 返回 的 错误 编码 , 而 想 使 用 自 
己 的 错误 编码 ， 则 应 该 包含 <linux/errno.h>， 以 使 用 诸如 -ENODEV、-ENOMEM 之 类 的 
符号 值 . 每 次 返回 合适 的 错误 编码 是 一 个 好 习惯 , 因为 用 户 程序 可 以 通过 perror 函数 或 
类 似 的 途径 将 它们 转换 为 有 意义 的 字符 串 。 


显然 , 模块 的 清除 函数 需要 撤销 初始 化 函数 所 注册 的 所 有 设施 , 并 且 习惯 上 《但 不 是 必 
须 的 ) 以 相反 于 注册 的 顺序 撤销 设施 : 


void _ _exit my_cleanup_function(void) 
{ 
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unregister_those{ptr3, "skull"); 
unregister_that (ptr2, "skull"'); 

unregister this(ptrl, "skull*); 

return; 


} 


如 果 初 始 化 和 清除 工作 涉及 很 多 设施 , 则 gote 方 法 可 能 变 得 难以 管理 ,因为 所 有 用 于 
清除 设施 的 代码 在 初始 化 函数 中 重复 ， 同 时 一 些 标号 交织 在 一 起 。 因 此 ， 有 时 候 我 们 需 
要 考虑 重新 构思 代码 的 结构 。 


每 当 发 生 错误 时 从 初始 化 函数 中 调用 清除 函数 ,这 种 方法 将 减少 代码 的 重复 并 且 使 代码 
更 清晰 、 更 有 条 理 。 当 然 , 清除 函数 必须 在 撤销 每 项 设施 的 注册 之 前 检查 它 的 状态 。 下 
面 是 这 种 方法 的 简单 示例 : 


struct something *itemi; 
struct somethingelse *item2; 
int stuff_ok; 


void my_cleanup (void) 
{ 
if (iteml) 
release_thing(iteml); 
if (item2) 
release_thing2 (item2); 
if (stuff_ok)} 
unregister_stuff(); 
return; 


int _ _init my_init (void) 
int err = -ENOMEM; 


iteml = allocate_thing (arguments); 
item2 = allocate thing2 (arguments2); 
if (!iteml || !item2) 

goto fail; 
err = register_stuff (iteml, item2); 
if (err) 

stuff_ok = 1; 
else 

goto fail; 
return 0; /* 成 功 */ 


fail: 
my_cleanup{(}); 
return err; 
} 


如 这 段 代码 所 示 ， 根 据 调用 的 注册 /分 配 函 数 的 语义 ,我 们 可 以 使 用 或 不 使 用 外 部 标志 
来 标记 每 个 初始 化 步骤 的 成 功 。 不 管 是 否 需要 使 用 标志 , 这 种 方式 的 初始 化 能 够 很 好 地 
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扩展 到 对 大 量 设施 的 支持 , 因此 比 前 面 介 绍 的 技术 更 具 优 越 性 。 然 而 需要 注意 的 是 ， 因 
为 清除 函数 被 非 退出 代码 调用 ， 因 此 不 能 将 清除 函数 标记 为 “_exit。 


模块 装载 竞争 


目前 为 止 , 我 们 已 经 简单 讨论 了 模块 装载 中 的 一 个 重要 方面 : 竞 态 (race condition)。 如 
果 在 编写 初始 化 函数 时 不 够 仔细 , 就 可 能 危及 整个 系统 的 稳定 性 。 在 本 书后 面 的 章节 中 
将 进一步 讨论 竞 态 问题 ， 本 节 将 阐述 一 些 要 点 。 


首先 要 始终 铭记 的 是 , 在 注册 完成 之 后 , 内 核 的 某 些 部 分 可 能 会 立即 使 用 我 们 刚刚 注册 
的 任何 设施 。 换 句 话说 , 在 初始 化 函数 还 在 运行 的 时 候 , 内 核 就 完全 可 能 会 调用 我 们 的 
模块 。 因 此 ,在 首次 注册 完成 之 后 ， 代 码 就 应 该 准备 好 被 内 核 的 其 他 部 分 调用 ; 在 用 来 
支持 某 个 设施 的 所 有 内 部 初始 化 完成 之 前 ， 不 要 注册 任何 设施 。 


我 们 还 必须 考虑 ,当初 始 化 失败 而 内 核 的 某 些 部 分 已 经 使 用 了 模块 所 注册 的 某 个 设施 时 
应 该 如 何 处 理 。 如 果 这 种 情况 可 能 发 生 在 我 们 的 模块 上 , 则 根本 不 应 该 出 现 初始 化 失败 
的 情况 ,毕竟 模块 已 经 成 功 导 出 了 可 用 的 功能 及 符号 。 如 果 初 始 化 一 定 要 失败 , 则 应 该 
仔细 处 理 内 核 其 他 部 分 正在 进行 的 操作 ， 并 且 要 等 待 这 些 操作 的 完成 。 


模块 参数 


由 于 系统 的 不 同 , 驱动 程序 需要 的 参数 也 许 会 发 生变 化 。 这 包括 设备 编号 (下 一 章 讨论 ) 
以 及 其 他 一 些 用 来 控制 驱动 程序 操作 方式 的 参数 。 例 如 , SCSI 适 配器 的 驱动 程序 经 常 要 
处 理 一 些 选项 ， 这 些 选 项 用 来 控制 标记 命令 队列 的 使 用 ， 而 集成 设备 电路 (Integrated 
Device Electronics ，IDE) 驱动 程序 允许 用 户 控制 DAM 操作 。 如 果 读 者 的 驱动 程序 用 
来 控制 一 些 早期 的 硬件 ， 也 许 需 要 明确 告知 驱动 程序 硬件 的 IO 端口 或 者 MO 内 存 地 址 
的 位 置 。 为 满足 这 种 需求 ,内 核 允许 对 驱动 程序 指定 参数 , 而 这 些 参 数 可 在 装载 驱动 程 
序 模块 时 改变 。 


这 些 参 数 的 值 可 在 运行 insmod 或 modprobe 命 令 装载 模块 时 赋值 , 而 modprob 还 可 以 从 
它 的 配置 文件 (/etcimodprob.conf) 中 读 取 参数 值 。 这 两 个 命令 可 在 命令 行 接受 几 种 参 
数 类 型 的 赋值 。 为 了 演示 这 种 功能 ， 我们 假定 对 本 章 前 面 的 “hello world” 模 块 〈 命 名 
为 heliop) 做 了 一 些 必要 的 增强 。 我 们 添加 了 两 个 参数 :一 个 是 整数 值 ， 其 名 称 为 
howmany; 另 一 个 是 字符 串 ， 名 称 为 whom。 在 装载 这 个 增强 的 模块 时 ， 将 向 whom 问 候 
howmany 次 。 这 样 ， 我 们 可 用 下 面 的 命令 行 来 装载 该 模块 : 


insmod hellop howmany=10 whom="Mom" 
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上 面 这 条 命令 的 效果 会 让 heliop 打印 10 次 “hello, Mom”。 


当然 ,在 insmod 改 变 模块 参数 之 前 ， 模 块 必须 让 这 些 参数 对 insmod 命令 可 见 。 参 数 必 
须 使 用 module_param 宏 来 声明 , 这 个 宏 在 moduwieparam.h 中 定义 。 module_param 需 
要 三 个 参数 : 变量 的 名 称 、 类 型 以 及 用 于 sysfs 人 口 项 的 访问 许可 掩 码 。 这 个 宏 必 须 放 
在 任何 函数 之 外 , 通常 是 在 源 文件 的 头 部 。 这 样 ，heliop 通过 下 面 的 代码 来 声明 它 的 参 
数 并 使 之 对 insmod 可 见 : 

static char *whom = "world"; 

static int howmany = 1; 


module_param(howmany, int, S_IRUGO); 
module_param{whom, charp, S_IRUGO); 


内 核 支持 的 模块 参数 类 型 如 下 : 


bool 

invbool 
布尔 值 ( 取 true 或 false)， 关 联 的 变量 应 该 是 int 型 。invboo1 类 型 反 转 其 值 ， 
也 就 是 说 ，true 值 变 成 false， 而 false 变 成 true。 


charp 
字符 指针 值 。 内 核 会 为 用 户 提供 的 字符 串 分 配 内 存 ， 并 相应 设置 指针 。 
int 
long 
short 
uint 
ulong 


ushort 


具有 不 同 长 度 的 基本 整数 值 。 以 u 开头 的 类 型 用 于 无 符号 值 。 


模块 装载 器 也 支持 数组 参数 ,在 提供 数组 值 时 用 逗号 划分 各 数组 成 员 . 要 声明 数组 参数 ， 
需要 使 用 下 面 的 宏 : 


module_param_array (name, type, num,perm); 


其 中 , name 是 数组 的 名 称 (也 就 是 参数 的 名 称 )，type 是 数组 元 素 的 类 型 ，num 是 一 
个 整数 变量 , 而 perm 是 常见 的 访问 许可 值 。 如 果 在 装载 时 设置 数组 参数 ， 则 num 会 被 
设置 为 用 户 提供 的 值 的 个 数 。 模 块 装载 器 会 拒绝 接受 超过 数组 大 小 的 值 。 


如 果 我 们 需要 的 类 型 不 在 上 面 所 列 出 的 清单 中 ,模块 代码 中 的 钩子 可 让 我 们 来 定义 这 些 
类 型 具体 的 细节 请 参阅 moduleparam.h 文 件 . 所 有 的 模块 参数 都 应 该 给 定 一 个 默认 值 ; 
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insmod 只 会 在 用 户 明确 设置 了 参数 的 值 的 情况 下 才 会 改变 参数 的 值 .模块 可 以 根据 默认 
值 来 判断 是 否 是 一 个 显 式 指定 的 参数 。 


Os 我 们 应 使 用 <linux/stat.h> 中 存在 的 定 

。 这 个 值 用 来 控制 谁 能 够 访问 sysfs 中 对 模块 参数 的 表述 。 如 果 perm 被 设置 为 0, 就 
有 对 应 的 sysfs 人口 项 ; 否则 , 模块 参数 会 在 /sys/module ( 注 3) 中 出 现 , 并 设置 为 
给 定 的 访问 许可 。 如 果 对 参数 使 用 SsS_IRUGO, 则 任何 人 均 可 读 取 该 参数 , 但 不 能 修改 ; 
S_IRUGO|S_IWUSR 人 允许 root 用 户 修改 该 参数 。 注意, 如 果 一 个 参数 通过 sysfs 而 被 修改 ， 
则 如 同 模块 修改 了 这 个 参数 的 值 一 样 , 但 是 内 核 不 会 以 任何 方式 通知 模块 。 大 多 数 情况 
下 ， 我 们 不 应 该 让 模块 参数 是 可 写 的 ， 除 非 我 们 打算 检测 这 种 修改 并 作出 相应 的 动作 。 


在 用 户 空 间 编写 驱动 程序 
首次 接触 内 核 的 Unix 程 序 员 可 能 对 编写 模块 比较 紧张 ,然而 编写 用 户 空间 程序 来 直接 对 
设备 端口 进行 读 写 就 容易 多 了 。 


相对 于 内 核 空间 编程 , 用 户 空间 编程 具有 自己 的 一 些 优点 。 有 时 候 编 写 一 个 所 谓 的 用 户 
空间 驱动 程序 是 替代 内 核 空间 驱动 程序 的 一 个 不 错 的 方法 。 在 这 一 小 节 , 我 们 将 讨论 编 
写 用 户 空间 驱动 程序 的 几 个 理由 。 但 本 书 主要 讲述 内 核 空间 的 驱动 程序 , 因此 除了 这 里 
的 讨论 之 外 ， 我 们 不 会 进一步 深入 讨论 这 个 话题 。 


用 户 空 间 驱 动 程序 的 优点 可 以 归纳 如 下 : 

。 ”可 以 和 整个 C 库 链接 。 驱动 程序 不 用 借助 外 部 程序 ( 即 前 面 提 到 的 和 驱动 程序 一 起 
发 行 的 用 于 提供 策略 的 用 户 程序 ) 就 可 以 完成 许多 非常 规 任 务 。 

。 ”可 以 使 用 通常 的 调试 器 调试 驱动 程序 代码 ， 而 不 用 费力 地 调试 正在 运行 的 内 核 。 


。 ”如 果 用 户 空 间 驱 动 程序 被 挂 起 , 则 简单 地 杀 掉 它 就 行 了 。 驱动 程序 带 来 的 问题 不 会 
挂 起 整个 系统 ， 除 非 所 驱动 的 硬件 已 经 发 生 严重 故障 。 


。 “和 内 核 内 存 不 同 , 用 户 内 存 可 以 换 出 。 如果 驱 动 程序 很 大 但 是 不 经 常 使 用 , 则 除了 
正在 使 用 的 情况 之 外 ， 不 会 占用 太 多 内 存 。 


。 ”良好 设计 的 驱动 程序 仍然 支持 对 设备 的 并 发 访问 。 


。 ”如 果 读 者 必须 编写 封闭 源码 的 驱动 程序 , 则 用 户 空间 驱动 程序 可 更 加 容易 地 避免 因 
为 修改 内 核 接口 而 导致 的 不 明确 的 许可 问题 。 





注 3: 但 在 本 书 编写 时 ， 内 核 开 发 者 正在 讨论 是 否 要 将 参数 转移 到 sysfs 的 其 他 地 方 。 
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例如 , USB 驱动 程序 可 在 用 户 空间 编写 ; 具体 可 参阅 libusb 项 目 (libusb.sourceforge.net， 
该 项 目 还 比较 “年 轻 ”), 以 及 内 核 源 代码 中 的 “gadgetfs”。X 服 务 器 是 用 户 空间 驱动 程 
序 的 另 一 个 例子 。 它 十 分 清楚 硬件 可 以 做 什么 、 不 可 以 做 什么 , 并 且 为 所 有 的 X 客 户 提 
供 图 形 资 源 。 然而, 值得 注意 的 是 目前 基于 帧 缓冲 区 (frame-buffer) 的 图 形 环境 正在 慢 
慢 成 为 发 展 趋势 。 这 种 环境 下 对 于 实际 的 图 形 操作 , X 服 务 器 仅仅 是 一 个 基于 真正 内 核 
空间 驱动 程序 的 服务 器 。 


通常 , 用 户 空间 的 驱动 程序 被 实现 为 一 个 服务 器 进程 , 其 任务 是 替代 内 核 作 为 硬件 控制 
的 唯一 代理 。 客 户 应 用 程序 可 连接 到 该 服务 器 并 和 设备 执行 实际 的 通信 ; 这 样 ,好 的 驱 
动 程序 进程 可 允许 对 设备 的 并 发 访问 。 其 实 这 就 是 和 服务 器 的 本 质 。 


除了 具备 上 述 优点 外 ， 用 户 空间 驱动 程序 也 有 很 多 缺点 ， 下 面 列 出 其 中 最 重要 的 几 点 : 


。 ”中 断 在 用 户 空 间 中 不 可 用 。 对 该 限制 ， 在 某 些 平台 上 也 有 相应 的 解决 办 法 ， 比 如 
IA32 架构 上 的 vm86 系统 调用 。 


。 ”只 有 通过 mmap 映射 /devimem 才能 直接 访问 内 存 ， 但 只 有 特权 用 户 才 可 以 执行 这 
个 操作 。 


。 ”只 有 在 调用 ioperm 或 iop! 后 才 可 以 访问 LO 端口 。 然 而 并 不 是 所 有 平台 都 支持 这 两 
个 系统 调用 ， 并 且 访 问 /dev/port 可 能 非常 慢 ， 因 而 并 非 十 分 有 效 。 同 样 只 有 特权 
用 户 才 能 引用 这 些 系 统 调 用 和 访问 设备 文件 。 


。 ”响应 时 间 很 慢 。 这 是 因为 在 客户 端 和 硬件 之 间 传 递 数 据 和 动作 需要 上 下 文 切换 。 


。 ”更 严重 的 是 , 如果 驱 动 程序 被 换 出 到 磁盘 ,响应 时 间 将 令 人 难以 忍受 。 使 用 mlock 
系统 调用 或 许可 以 缓解 这 一 问题 , 但 由 于 用 户 空间 程序 一 般 需 要 链接 多 个 库 , 因此 
通常 需要 占用 多 个 内 存 页 。 同 样 ，miock 也 只 有 特权 用 户 才能 引用 。 


。 ”用 户 空间 中 不 能 处 理 一 些 非常 重要 的 设备 ,包括 (但 不 限于 ) 网 络 接口 和 块 设备 等 。 


如 上 所 述 , 我 们 看 到 用 户 空间 驱动 程序 毕竟 做 不 了 太 多 的 工作 。 然而 依然 存在 一 些 有 意 
义 的 应 用 ,例如 对 SCSI 扫描 设备 (由 包 SANE 实现 ) 和 CD 刻录 设备 ( 由 cdrecord 和 
其 他 工具 实现 ) 的 支持 。 这 两 种 情况 下 ， 用 户 空 间 驱 动 程序 都 依赖 内 核 空间 驱动 程序 
“SCSI generic”, 它 导出 底层 通用 的 SCSI 功 能 到 用 户 空间 程序 , 然后 再 由 用 户 空间 驱动 
程序 驱动 自己 的 硬件 。 


有 一 种 情况 适合 在 用 户 空间 处 理 ， 这 就 是 当 我 们 准备 处 理 一 种 新 的 、 不 常见 的 硬件 时 。 
在 用 户 空间 中 我 们 可 以 研究 如 何 管理 这 个 硬件 而 不 用 担心 挂 起 整个 系统 。 一 旦 完成 ,就 
很 容易 将 户 空 间 驱动 程序 封装 到 内 核 模块 中 。 








本 节 将 总 结 本 章 中 提 到 的 内 核 函 数 、 变 量 、 安 以 及 /proc 文件 、 可 以 作为 对 这 些 内 容 的 
一 个 参考 。 每 一 项 都 会 在 相关 头 文件 之 后 列 出 。 从 本 章 开 始 , 以 后 每 一 章 里 都 会 有 类 似 
的 一 节 来 总 结 引 入 的 新 符号 。 本 节 中 出 现 的 条 上 且 会 以 它们 在 文中 出 现 的 顺序 列 出 : 


insmod 
modprobe 
rmmod 


用 来 装载 模块 到 正 运行 的 内 核 和 移 除 模块 的 用 户 空间 工具 。 


#include <linux/init.h> 
module_init (init._ function); 
module_exit {cleanup_function); 
用 于 指定 模块 的 初始 化 和 清除 函数 的 宏 。 
.nit 
Initaata 
__exit 
__exitdata 
仅 用 于 模块 初始 化 或 清除 阶段 的 函数 (_ _init 和 __exit) 和 数据 (__initGata 
和 _exitaata) 标记 。 标记 为 初始 化 的 项 目 会 在 初始 化 结束 后 丢弃 ; 而 退出 项 目 
在 内 核 未 被 配置 为 可 卸载 模块 的 情况 下 被 丢弃 .内核 通过 将 相应 的 目标 对 象 放 置 在 
可 执行 文件 的 特殊 ELF 段 中 而 让 这 些 标 记 起 作用 。 
#include <linux/sched.h> 
最 重要 的 头 文件 之 一 。 该 文件 包含 驱动 程序 使 用 的 大 部 分 内 核 API 的 定义 , 包括 睡 
眠 函数 以 及 各 种 变量 声明 。 
struct task_struct *current; 
当前 进程 。 
current~>pid 
current~>comm 
当前 进程 的 进程 ID 和 命令 名 。 
obj-m 
由 内 核 构 造 系统 使 用 的 makefile 符号 ， 用 来 确定 在 当前 目录 中 应 构造 哪些 模块 。 
lsysimodule 


Iprocimodules 


/sysimodule 是 sysfs 目 录 层 次 结构 中 包含 当前 已 装载 模块 信息 的 目录 。/proc/ 
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modules 是 早期 用 法 ,只 在 单个 文件 中 包括 这 些 信息 , 其 中 包含 了 模块 名 称 、 每 个 
模块 使 用 的 内 存 总 量 以 及 使 用 计数 等 .每 一 行 之 后 还 追加 有 额外 的 字符 串 , 用 来 指 
定 模块 的 当前 活动 标志 。 
vermagic.o 
内 核 源 代码 目录 中 的 一 个 目标 文件 ， 它 描述 了 模块 的 构造 环境 。 
#include <linux/module.h> 
必需 的 头 文件 ， 它 必须 包含 在 模块 源 代码 中 。 
#include <linux/version.h> 
包含 所 构造 内 核 版 本 信息 的 头 文件 。 
LINUX_VERSION_CODE 
整数 宏 ， 在 处 理 版 本 依赖 的 预 处 理 条件 语 句 中 非常 有 用 。 


EXPORT_SYMBOL (symbol); 

EXPORT_SYMBOL_GPL (symbol); 
用 来 导出 单个 符号 到 内 核 的 宏 。 第 二 个 宏 将 导出 符号 的 使 用 限于 GPL 许可 证 下 的 
模块 。 

MODULE_AUTHOR (author) ; 

MODULE_DESCRIPTION (description); 

MODULE_VERSION (version_string); 

MODULE_DEVICE_TRABLE (table_infto) ; 

MODULE_RALIRAS (alLternate_narme) ; 


在 目标 文件 中 添加 关于 模块 的 文档 信息 。 


module_init (init_function); 

module_exit (lexit_function); 
用 来 声明 模块 初始 化 和 清除 函数 的 宏 。 

#include <linux/moduleparam.h> 

module_param(variable, type, perm); 
用 来 创建 模块 参数 的 宏 , 用 户 可 在 装载 模块 时 (或 者 对 内 建 代码 引导 时 ) 调整 这 些 
参数 的 值 。 其 中 的 类 型 可 以 是 bool、charp,int、invbool,long.short、ushort、 
uint、ulong 或 者 intarray。 


#include <linux/kernel.h> 
int printk(const char * fmt, ...); 


函数 prin#f 的 内 核 代 码 。 
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本 音 的 目标 是 编写 一 个 完整 的 字符 设备 驱动 程序 。 我 们 开发 字符 设备 驱动 程序 的 原因 是 
因为 此 类 驱动 程序 适合 于 大 多 数 简单 的 硬件 设备 , 而 且 比 起 块 设备 或 网 络 驱动 程序 (我 
们 将 在 后 面 的 章节 中 讲述 这 两 类 驱动 程序 ) 更 加 易于 理解 。 我 们 的 最 终 目标 是 编写 一 个 
模块 化 的 字符 设备 驱动 程序 ， 但 本 章 不 会 讨论 模块 化 的 相关 问题 。 


贯穿 全 章 我 们 将 介绍 一 些 代码 段 , 它们 取 自 一 个 真正 的 设备 驱动 程序 : scull, 即 “Simple 
Character Utility for Loading Localities, 区 域 装载 的 简单 字符 工具 ”的 缩写 。scul! 是 
-个 操作 内 存 区 域 的 字符 设备 驱动 程序 ， 这 片 内 存 区 域 就 相当 于 一 个 设备 。 本 章 中 ， 
为 scull 的 特殊 之 处 ,“ 设 备 ” 这 个 词 可 与 “scull 所 使 用 的 内 存 区 域 ” 互 换 使 用 。 


scul1 的 优点 在 于 它 不 和 硬件 相关 , 而 只 是 操作 从 内 核 中 分 配 的 一 些 内 存 。 任何 人 都 可 以 
编译 和 运行 scull， 而 且 还 可 以 将 scull 移植 到 Linux 支持 的 所 有 计算 机 平台 上 。 但 另 一 
方面 ， 除了 展示 内 核 和 字符 设备 驱动 程序 之 间 的 接口 并 且 让 用 户 运行 某 些 测试 例 程 外 ， 
scull 设备 做 不 了 任何 “有 用 的 ”事情 。 


scull 的 设计 


编写 驱动 程序 的 第 一 步 就 是 定义 驱动 程序 为 用 户 程序 提供 的 能 力 ( 机 制 )。 由 于 我 们 的 
“设备 ”是 计算 机 内 存 的 一 部 分 ， 所 以 可 以 利用 它 随意 地 做 我 们 想 做 的 事情 ， 它 可 以 是 
顺序 或 随机 存 取 设 备 ， 也 可 以 是 一 个 或 多 个 设备 等 。 


为 了 让 scull 能 够 为 编写 真正 的 设备 驱动 程序 提供 一 个 样板 ,我 们 将 展示 怎样 在 计算 机 内 
存 之 上 实现 若干 设备 抽象 ， 而 且 每 个 都 具有 自己 的 特点 。 


sciull 的 源 代码 实现 了 下 列 设备 ， 我 们 将 由 模块 实现 的 每 种 设备 称 作 一 种 “类 型 : 
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SCULO ~ scull3 
这 四 个 设备 分 别 由 一 个 全 局 且 持 久 的 内 存 区 域 组 成 。“ 全 局 ”是 指 : 如 果 设 备 被 多 
次 打开 , 则 打开 它 的 所 有 文件 描述 符 可 共享 该 设备 所 包含 的 数据 。 持久 "是 指 : 如 
果 设 备 关闭 后 再 打开 , 则 其 中 的 数据 不 会 丢失 。 可 以 使 用 常用 命令 来 访问 和 测试 这 
个 设备 ， 如 cp、caf 以 及 shell 的 IO 重 定向 等 。 

scullpipe0 ~ scullpipe3 
这 四 个 FIFO ( 先 人 先 出 ) 设备 与 管道 类 似 。 一 个 进程 读 取 由 另 一 个 进程 写 人 的 数 
据 。 如 果 多 个 进程 读 取 同一 个 设备 , 它们 就 会 为 数据 发 生 竞争 。sculipipe 的 内 部 实 
现 将 说 明 在 不 借助 于 中 断 的 情况 下 如 何 实现 阻塞 式 和 非 阻塞 式 读 / 写 操作 。 虽 然 实 
际 的 驱动 程序 使 用 硬件 中 断 与 它们 的 设备 保持 同步 ,但 阻塞 式 和 非 阻 塞 式 操作 是 一 
个 重要 内 容 ， 并 且 有 别 于 中 断 处 理 〈 第 十 章 将 作 介绍 )。 


scullsingle 

scullpriv 

sculluid 

scullwuid 
这 些 设备 与 scul110 相似 ， 但 在 何 时 允许 open 操作 方面 有 一 些 限 制 。 第 一 个 
(scullsingle) 一 次 只 允许 一 个 进程 使 用 该 驱动 程序 ， 而 scullpriv 对 每 个 虚拟 控制 
台 (或 X 终 端 会 话 ) 是 私有 的 , 这 是 因为 每 个 控制 台 / 终 端 上 的 进程 将 获取 不 同 的 
内 存 区 。sculluid 和 scullwuid 可 被 多 次 打开 , 但 每 次 只 能 由 一 个 用 户 打 开 ; 如 果 另 
一 个 用 户 锁 定 了 该 设备 ，sculluid 将 返回 “Device Busy” 的 错误 ， 而 sculiwuid 则 
实现 了 阻塞 式 open。 这 些 scull 设 备 的 变种 混淆 了 “机 制 ” 和 “策略 ”, 但 这 类 处 理 
是 值得 去 了 解 的 ， 因 为 某 些 真正 的 设备 需要 类 似 的 管理 方式 。 


每 个 scull 设备 都 展示 了 驱动 程序 的 不 同 功 能 ， 也 提出 了 不 同 的 难点 。 本 童 主要 涉及 
sculI0 ~ scull3 的 内 部 结构 ; 更 为 复杂 的 设备 将 在 第 六 章 介绍 : scullpipe 在 “阻塞 式 
IO 示例 ”一 节 中 讲述 ， 而 其 他 设备 在 “设备 文件 的 访问 控制 ”中 介绍 。 


主 设备 号 和 次 设备 号 

对 字符 设备 的 访问 是 通过 文件 系统 内 的 设备 名 称 进行 的 。 那 些 名 称 被 称 为 特殊 文件 、 设 
备 文件 ,或 者 简单 称 之 为 文件 系统 树 的 节点 ,它们 通常 位 于 /dev 目 录 。 字符 设备 驱动 和 
序 的 设备 文件 可 通过 上-! 命 令 输 出 的 第 一 列 中 的 “c" 来 识别 。 块 设备 也 出 现在 /dev 下 ， 
但 它们 由 字符 “b” 标 识 。 本 章 主要 关注 字符 设备 ， 不 过 下 面 介绍 的 许多 内 容 也 同样 适 
用 于 块 设备 。 
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如 果 执 行 1s 一! 命令 ， 则 可 在 设备 文件 项 的 最 后 修改 日 期 前 看 到 两 个 数 (用 逗号 分 隔 )， 
这 个 位 置 通常 显示 的 是 文件 的 长 度 ; 而 对 设备 文件 , 这 两 个 数 就 是 相应 设备 的 主 设备 号 
和 次 设备 号 。 下 面 的 列表 给 出 了 典型 系统 中 的 一 些 设备 。 它 们 的 主 设备 号 是 1、4、7 和 
10， 而 次 设备 号 是 1、3、5、64、65 和 129。 


CIrWw-rw-rw- 1 root root 二 3 Apr 11 2002 null 
OW ===== 1 root root 10, 1 Apr 11 2002 psaux 
CIW------- 1 root root 4, 1 Oct 28 03:04 ttyl 
CIW-IW-IW- 1 root tty 4, 64 Apr 11 2002 ttys0 
Crw-rw---- 1 root uucp 4; 65 Apr 11 2002 ttysSt 
CTW==W==== 1 vesa tty Te 1 Apr 11 2002 vcsl 
CrWw--W-~-- 1 vesa tty 7, 129 Apr 11 2002 vcsal 
CIW-IW-rWw- 1 root root 1 5 Apr 11 2002 zero 


通常 而 言 , 主 设备 号 标识 设备 对 应 的 驱动 程序 。 例如, /devinull 和 /dev/zero 由 驱动 程序 
1 管理 ， 而 虚拟 控制 台 和 串口 终端 由 驱动 程序 4 管理 ; 类 似 地 ，ycs! 和 "csa! 设备 都 由 驱 
动 程序 7 管理 。 现 代 的 Linux 内 核 多 许多 个 驱动 程序 共享 主 设备 号 , 但 我 们 看 到 的 大 多 
数 设备 仍然 按照 “一 个 主 设备 号 对 应 一 个 驱动 程序 ”的 原则 组 织 。 


次 设备 号 由 内 核 使 用 , 用 于 正确 确定 设备 文件 所 指 的 设备 。 依赖 于 驱动 程序 的 编写 方式 
(将 在 下 面 阐述 ) , 我 们 可 以 通过 次 设备 号 获得 一 个 指向 内 核 设备 的 直接 指针 , 也 可 将 次 
设备 号 当 作 设 备 本 地 数组 的 索引 。 不 管用 哪 种 方式 , 除了 知道 次 设备 号 用 来 指向 驱动 程 
序 所 实现 的 设备 之 外 ， 内 核 本 身 基 本 上 不 关心 关于 次 设备 号 的 任何 其 他 信息 。 


设备 编号 的 内 部 表达 

在 内 核 中 ，dev_t 类 型 (在 <linux/types.h> 中 定义 ) 用 来 保存 设备 编号 一 一 包括 主 设 
备 号 和 次 设备 号 。 在 内 核 的 2.6.0 版 本 中 ，dev_t 是 一 个 32 位 的 数 ， 其 中 的 12 位 用 来 
表示 主 设备 号 , 而 其 余 20 位 用 来 表示 次 设备 号 。 当然, 我 们 的 代码 不 应 该 对 设备 编号 的 
组 织 做 任何 假定 , 而 应 该 始终 使 用 <linux/kdev_t.h> 中 定义 的 宏 。 比 如 ， 要 获得 dev_t 
的 主 设备 号 或 次 设备 号 ， 应 使 用 : 


MAJOR(dev_t dev}); 
MINOR(dev_t dev); 


相反 ， 如 果 需 要 将 主 设备 号 和 次 设备 号 转换 成 dev_t 类 型 ， 则 使 用 : 
MKDEV (int major, int minor}; 


注意 , 2.6 内 核 可 以 容纳 大 量 的 设备 , 而 先前 的 内 核 版 本 却 限于 255 个 主 设备 号 和 255 个 
次 设备 号 。 我 们 可 以 认为 更 宽 的 范围 在 相当 长 的 时 间 内 是 足够 的 ， 然而, 计算 领域 中 充 
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斥 着 大 量 的 类 似 假定 。 因此 , 我 们 会 看 到 dev 上 格式 在 将 来 会 发 生变 化 ; 但 如 果 我 们 小 
心地 编写 自己 的 驱动 程序 ， 那 么 这 种 变化 不 会 带 来 问题 。 


分 配 和 释放 设备 编号 


在 建立 一 个 字符 设备 之 前 ,我们 的 驱动 程序 首先 要 做 的 事情 就 是 获得 一 个 或 者 多 个 设备 
编号 。 完成 该 工作 的 必要 函数 是 register_chrdev_region, 该 浮 数 在 <linuxifs.h> 中 声明 : 
int register_chrdev_region{dev_t first, unsigned int count, 
char *name); 

其 中 , first 是 要 分 配 的 设备 编号 范围 的 起 始 值 。fir st 的 次 设备 号 经 常 被 置 为 0, 但 
对 该 函数 来 讲 并 不 是 必需 的 .count 是 所 请 求 的 连续 设备 编号 的 个 数 。 注 意 ,如 果 count 
非常 大 , 则 所 请 求 的 范围 可 能 和 下 一 个 主 设备 号 重 登 , 但 只 要 我 们 所 请 求 的 编号 范围 是 
可 用 的 ， 则 不 会 带 来 任何 问题 。 最 后 ，name 是 和 该 编号 范围 关联 的 设备 名 称 、 它 将 出 
现在 /proc/devices 和 sysfs 中 。 


和 大 部 分 内 核 函数 一 样 ,register_chrdev_region 的 返回 值 在 分 配 成 功 时 为 0。 在 错误 情 
况 下 ， 将 返回 一 个 负 的 错误 码 ， 并 且 不 能 使 用 所 请 求 的 编号 区 域 。 


如 果 我 们 提前 明确 知道 所 需要 的 设备 编号 , 则 register_chrdev_region 会 工作 得 很 好 。 但 
是 ,我 们 经 常 不 知道 设备 将 要 使 用 哪些 主 设备 号 ;因此 ，Linux 内 核 开发 社区 一 直 在 和 努 
力 转 向 设备 编号 的 动态 分 配 。 在 运行 过 程 中 使 用 下 面 的 函数 , 内 核 将 会 为 我 们 恰当 分 配 
所 需要 的 主 设备 号 : 


int alloc_chrdev_ region{dev_t *dev, unsigned int firstminor, 
unsigned int count, char *name); 


在 上 面 这 个 函数 中 , aev 是 仅 用 于 输出 的 参数 , 在 成 功 完成 调用 后 将 保存 已 分 配 范 围 的 
第 一 个 编号 。firstminor 应 该 是 要 使 用 的 被 请 求 的 第 一 个 次 设备 号 ， 它 通常 是 0 。 
count 和 name 参数 与 register_chrdev_region 国 数 是 一 样 的 。 


不 论 采 用 哪 种 方法 分 配 设备 编号 , 都 应 该 在 不 再 使 用 它们 时 释放 这 些 设备 编号 。 设备 编 
号 的 释放 需要 使 用 下 面 的 函数 : 
void unregister_chrdev_region(dev 上 first, unsigned int count); 


通常 ， 我 们 在 模块 的 清除 函数 中 调用 unregister_chrdev_region 函数 。 


上 面 的 函数 为 驱动 程序 的 使 用 分 配 设备 编号 ,但 是 它们 并 没有 告诉 内 核 关 于 拿 来 这 些 编 
号 要 做 什么 工作 。 在 用 户 空间 程序 可 访问 上 述 设备 编号 之 前 , 驱动 程序 需要 将 设备 编号 
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和 内 部 函数 连接 起 来 , 这 些 内 部 函数 用 来 实现 设备 的 操作 。 我 们 会 马上 讨论 如 何 实 现 这 
种 连接 ,但 在 此 之 前 还 需要 进一步 讨论 有 关 设 备 号 的 内 容 。 


动态 分 配 主 设备 号 


一 部 分 主 设备 号 已 经 静态 地 分 配给 了 大 部 分 常见 设备 。 在 内 核 源码 树 的 Docurmemtatiom/ 
devices.txt 文 件 中 可 以 找到 这 些 设备 的 清单 。 将 某 个 已 经 分 配 好 的 静态 编号 用 于 新 驱动 
程序 的 机 会 非常 小 , 但 是 尚未 被 分 配 的 新 编号 是 可 用 的 。 因 此 ， 作 为 驱动 程序 作者 ,我 
们 有 如 下 选择 : 可 以 简单 选 定 一 个 尚未 被 使 用 的 编号 ,或 者 通过 动态 方式 分 配 主 设备 号 。 
如 果 使 用 驱动 程序 的 人 只 有 我 们 自己 , 则 选 定 一 个 编号 的 方法 永远 行 得 通 ; 然而 , 一 旦 
驱动 程序 被 广泛 使 用 ， 随 机 选 定 的 主 设备 号 可 能 造成 冲突 和 麻烦 。 


因此 , 对 于 一 个 新 的 驱动 程序 , 我 们 强烈 建议 读者 不 要 随便 选择 一 个 当前 未 使 用 的 设备 
号 作为 主 设备 号 , 而 应 该 使 用 动态 分 配 机 制 获 取 主 设备 号 。 换 句 话说 , 驱动 程序 应 该 始 
终 使 用 alloc_chrdev_region 而 不 是 register_chrdev_region 国 数 。 


动态 分 配 的 缺点 是 : 由 于 分 配 的 主 设备 号 不 能 保证 始终 一 致 ,所 以 无 法 预先 创建 设备 节 
点 。 对 于 驱动 程序 的 一 般 用 法 , 这 倒 不 是 什么 问题 ， 因 为 一 旦 分 配 了 设备 号 , 就 可 以 从 
/procidevices 中 读 取 得 到 ( 注 1)。 


因此 , 为 了 加 载 一 个 使 用 动态 主 设备 号 的 设备 驱动 程序 , 对 insmod 的 调用 可 替换 为 一 个 
简单 的 脚本 , 该 脚本 在 调用 insmod 之 后 读 取 /proc/devices 以 获得 新 分 配 的 主 设备 号 , 然 
后 创建 对 应 的 设备 文件 。 


典型 的 /proc/devices 文件 如 下 所 示 : 


Character devices: 
1 mem 

2 pty 

3 ttyp 
4 ttyS 

6 1p 

了 vcs 

10 misc 
13. not 
14 sound 
21 sg 
180 usb 





注 1: 设备 信息 通常 能 够 从 sysfs 中 更 好 地 获得 ， 在 基于 2.6 内 核 的 系统 中 ，sysfs 通常 被 挂 装 
到 /sys 上 。 但 是 ， 让 scull 通过 sysfs 来 导出 信息 的 方法 已 超出 了 本 书 的 讨论 范围 ; 我 们 
将 在 第 十 四 章 讨 论 Sysfs。 | 
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Block devices: 
2 fd 
8 sd 
5 
65 sd 
66 SG 


动态 分 配 主 设备 号 的 情况 下 , 要 加 载 这 类 驱动 程序 模块 的 脚本 ,可 以 利用 awk 这 类 工具 
从 /procidevices 中 获取 信息 ， 并 在 /dev 目录 中 创建 设备 文件 。 


下 面 这 个 名 为 scull_load 的 脚本 是 scul! 发 布 的 一 部 分 。 使 用 以 模块 形式 发 行 的 驱动 程序 
的 用 户 可 以 在 系统 的 rc.iocal 文件 中 调用 这 个 脚本 ， 或 是 在 需要 模块 时 手工 调用 。 
#!/bin/sh 
module="scull" 


device="scull" 
mode="664" 


# 使 用 传人 到 该 脚本 的 所 有 参数 调用 insmod、 辣 时 使 用 路 径 名 来 指定 模块 位 置 ， 
# 这 是 因为 新 的 modutils 默认 不 会 在 当前 目录 中 查找 模块 。 


/sbin/insmod ./$module.ko $* || exit 1 


# 删除 原 有 节点 
rm -f /dev/${device} [0-3] 


major=$ (awk "\$2= =\"$module\" {print \$1}" /proc/devices) 


mknod /dev/${device}0 c $major 0 
mknod /dev/${device}l c¢ $major 1 
mknod /dev/${device}2 ¢ Smajor 2 
mknod /dev/${device}3 c $major 3 


# 给 定 适 当 的 组 属性 及 许可 ， 并 修改 属 组 。 

# 并 非 所 有 的 发 行 版 都 具有 staff 组 ， 有 些 有 wheel 组 。 
group="staff" 

grep -dq '“^staff:' /etc/group || group="wheel" 


chgrp S$group /dev/${device} [0-3] 
chmod $mode /dev/${device} [0-3] 


这 个 脚本 同样 可 以 适用 于 其 他 驱动 程序 , 只 要 重新 定义 变量 并 调整 mknod 那 几 行 语句 就 
可 以 了 。 该 法 本 创建 了 四 个 设备 ， 因 为 scul! 的 源码 默认 创建 四 个 设备 。 


脚本 的 最 后 几 行 看 起 来 有 点 奇怪 : 为 什么 要 改变 设备 的 组 和 访问 模式 呢 ? 原因 在 于 这 个 
脚本 必须 由 超级 用 户 运行 , 所 以 新 创建 的 设备 文件 自然 属于 root。 默 认 的 权限 位 只 允许 
root 对 其 有 写 访问 权 ， 而 其 他 用 户 只 有 读 权限 。 通 常 ， 设 备 节点 需要 不 同 的 访问 策 赂 ， 
因此 有 时 需要 修改 访问 权限 。 我 们 的 脚本 黑 认 地 把 访问 权 赋 于 一 个 用 户 组 ,而 读者 的 需 
求 可 能 有 所 不 同 。 第 六 章 “ 设 备 文件 的 访问 控制 ”一 节 中 ，sculluid 的 代码 将 会 展示 设 
备 驱动 程序 如 何 实现 自己 的 设备 访问 授权 。 
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除 scull_load 之 外 , 还 有 一 个 scull_unload 脚本 用 来 清除 /dev 目录 下 的 相关 设备 文件 并 
印 载 这 个 模块 。 


除了 使 用 这 一 对 装载 和 和 印 载 模块 的 脚本 外 ,我 们 还 可 以 编写 一 个 init 脚 本 ,并 将 其 保存 
在 发 行 版 使 用 的 init 脚 本 日 录 中 ( 注 2)。 作 为 scz 源 码 的 一 部 分 , 我 们 提供 了 相当 详尽 
和 可 配置 的 init 脚 本 范例 ， 名 为 scull.init。 它 接收 约定 的 参数 一 一 start、stop 以 及 
restart 一 一 而 且 可 完成 scull_ioad 和 scull_unload 的 双重 任务 。 


如 果 反 复 创 建 和 删除 /dev 节 点 显得 有 些 不 必要 的 话 , 那么 有 一 个 解决 的 方法 。 如 果 只 是 
装载 和 卸载 单个 驱动 程序 . 则 可 在 第 一 次 创建 设备 文件 之 后 仅 使 用 rmrmod 和 insmod 这 
两 个 命令 : 因为 动态 设备 号 并 不 是 随机 生成 的 ( 注 3), 如 果 不 受 其 他 (动态 ) 模块 影响 
的 话 , 可 以 预期 获得 相同 的 动态 主 设备 号 。 在 开发 过 程 中 避免 脚本 过 长 是 有 益 的 。 但 很 
明显 ， 这 个 技巧 不 能 适用 于 同时 有 多 个 驱动 程序 存在 的 场合 。 


以 笔者 的 看 法 , 分 配 主 设备 号 的 最 佳 方式 是 : 默认 采用 动态 分 配 , 同时 保留 在 加 载 甚至 
是 编译 时 指定 主 设备 号 的 余地 。scull 的 实现 采用 了 这 种 方式 ; 它 使 用 了 一 个 全 局 变量 
scull_major, 用 来 保存 所 选择 的 设备 号 (也 有 一 个 用 于 次 设备 号 的 scull_minor 变 
量 )。 该 变量 的 初始 化 值 是 SCULL_MAJOR, 这 个 宏 定 义 在 scull.h 中 。 在 我 们 发 布 的 源 代 
码 中 ，SCULL_MAJOR 缸 认 取 0, 即 “ 选 择 动态 分 配 ?。 用 户 可 以 使 用 这 个 默认 值 或 选择 
某 个 特定 的 主 设备 号 , 而 且 既 可 以 在 编译 前 修改 宏 定义 , 也 可 以 通过 insmod 命 令 行 指定 
scull_major 的 值 。 最 后 ， 通 过 使 用 scull_ioad 脚本 ， 用 户 可 以 在 scull_load 的 命令 
行 中 将 参数 传递 给 insmod ( 注 4)。 


下 面 是 scull.c 中 用 来 获取 主 设备 号 的 代码 : 


if (scull major) { 
dev = MKDEV{scull_major, scull_ minor); 
result = register_chrdev_region{dev, scull nr_devs, euLLE"Y 
} else { 
result = alloc_chrdev_region(&kdev, scull_minor, scull_nr_devs, 
$aoUlLL" Ys 
scull_major = MAJOR (dev); 





注 2: Linux Standard 和 要求 将 init 脚 本 置 于 /etclinit.d 目录 下 , 但 某 些 发 行 版 仍 将 这 些 版 本 置 寺 
其 他 目录 。 另 外 ， 如 果 要 在 引导 阶段 运行 某 个 脚本 ， 则 需要 从 造 当 的 运行 级 别 目录 ( 例 
如 ，.../rc3.d) 创建 一 个 指向 该 脚本 的 链接 。 

注 3: 不 过 ， 某 些 内 核 开 发 人 员 已 经 预示 在 不 久 的 将 来 将 会 按 随 机 方式 进行 处 理 。 

注 4: init 脚本 scull.init 不 接受 来 自命 令 行 的 驱动 程序 选项 ， 但 它 支持 一 个 配置 文件 ， 因 为 这 
个 脚本 是 为 启动 和 关机 时 自动 运行 而 设计 的 。 
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if (lresult < 0) { 
printk (KERN_WARNING "scull: can't get major %d\n", scull major); 
return result; 


} 


本 书 中 几乎 所 有 的 示例 驱动 程序 都 使 用 类 似 的 代码 来 分 配 它们 的 主 设备 号 。 


一 些 重要 的 数据 结构 


读者 可 能 会 想像 到 ,设备 编号 的 注册 仅仅 是 驱动 程序 代码 必须 完成 的 许多 工作 中 的 第 一 
件 事 情 而 已 。 我们 很 快 就 会 看 到 其 他 一 些 重 要 的 驱动 程序 组 件 , 但 在 此 之 前 还 需要 阐述 
另 一 个 话题 。 大 部 分 基本 的 驱动 程序 操作 涉及 到 三 个 重要 的 内 核 数据 结构 ， 分别 是 
file_operations、file 和 inode。 在 编写 真正 的 驱动 程序 之 前 ， 需 要 对 上 述 结构 有 
一 个 基本 的 认识 , 因此 在 阐述 如 何 实现 基本 的 驱动 程序 操作 之 前 , 我 们 将 快速 描述 上 述 
数据 结构 。 


文件 操作 


迄今 为 止 , 我 们 已 经 为 自己 保留 了 一 些 设备 编号 , 但 尚未 将 任何 驱动 程序 操作 连接 到 这 
些 编号 。file_operations 结构 就 是 用 来 建立 这 种 连接 的 。 这 个 结构 定义 在 <linux/ 
fs.h> 中， 其 中 包含 了 一 组 函数 指针 。 每 个 打开 的 文件 (在 内 部 由 一 个 file 结构 表示 ， 
稍 后 就 会 讲 到 ) 和 一 组 函数 关联 (通过 包含 指向 一 个 file_operations 结 构 的 f_op 字 
段 )。 这些 操作 主要 用 来 实现 系统 调用 ,命名 为 open、read 等 等 。 我 们 可 以 认为 文件 是 
一 个 “对 象 ”， 而 操作 它 的 函数 是 “方法 ”， 如 果 采 用 面向 对 象 编程 的 术语 来 表达 就 是 ， 
对 象 声 明 的 动作 将 作用 于 其 本 身 。 这 是 我 们 在 Linux 内 核 中 看 到 的 面向 对 象 编程 的 第 一 
个 例证 ， 在 后 面 的 章节 中 还 会 看 到 更 多 。 


按照 惯例 , file_operations 结 构 或 者 指向 这 类 结构 的 指针 称 为 Eops (或 者 是 与 此 相 
关 的 其 他 叫 法 )。 这 个 结构 中 的 每 一 个 字段 都 必须 指向 驱动 程序 中 实现 特定 操作 的 函数 ， 
对 于 不 支持 的 操作 ， 对 应 的 字段 可 置 为 NULL 值 。 对 各 个 函数 而 言 ， 如 果 对 应 字段 被 赋 
为 NULL 指针 ,那么 内 核 的 具体 处 理 行为 是 不 尽 相同 的 ， 本 节 后 面 的 列表 会 列 出 这 些 差 
异 。 


下 面 列 出 了 应 用 程序 可 在 某 个 设备 上 调用 的 所 有 操作 .为 便于 查询 ,我 们 尽量 使 之 简洁 ， 
仅仅 总 结 了 每 个 操作 以 及 使 用 NULL 时 的 内 核 默 认 行为 。 


在 通读 file_operations 方 法 的 清单 时 , 我 们 会 注意 到 许多 参数 包含 有 __user 字符 
串 , 它 其 实 是 一 种 形式 的 文档 而 已 , 表明 指针 是 一 个 用 户 空 间 地 址 , 因此 不 能 被 直接 引 
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用 。 对 通常 的 编译 来 讲 ，_ _user 没有 任何 效果 , 但 是 可 由 外 部 检查 软件 使 用 ， 用 来 寻 
找 对 用 户 空间 地 址 的 错误 使 用 。 


介绍 完 其 他 一 些 重要 的 数据 结构 后 ,本 章 其 余部 分 将 讲解 最 重要 的 一 些 操作 并 给 出 一 些 
技巧 、 警 告 和 实际 的 代码 样 例 。 由 于 我 们 尚未 深入 探讨 内 存 管理 、 块 操作 和 异步 通知 机 
制 ， 其 他 更 为 复杂 的 操作 将 在 以 后 的 章节 中 介绍 。 


struct module *owner 
第 一 个 file_operations 字段 并 不 是 一 个 操作 ; 相反 ， 它 是 指向 “拥有 ”该 结 
构 的 模块 的 指针 。 内 核 使 用 这 个 字段 以 避免 在 模块 的 操作 正在 被 使 用 时 韶 载 该 模 
块 。 几 乎 在 所 有 的 情况 下 ， 该 成 员 都 会 被 初始 化 为 THIS_MODULE， 它 是 定义 在 
<Linuxrfzaodaie.h> 中 的 一 个 宏 。 


loff t (*llseek) (struct file *, loff_t, int); 
方法 llseek 用 来 修改 文件 的 当前 读 写 位 置 ， 并 将 新 位 置 作为 〈 正 的 ) 返回 值 返回 。 
参数 1off 上 一 个 “长 偏 移 量 "， 即 使 在 32 位 平台 上 也 至 少 占用 64 位 的 数据 宽度 。 
出 错时 返回 一 个 负 的 返回 值 。 如 果 这 个 函数 指针 是 NULL, 对 seek 的 调用 将 会 以 某 
种 不 可 预期 的 方式 修改 file 结 构 (在 “file 结构 ”一 节 中 有 描述 ) 中 的 位 置 计数 
器 。 

ssize t (*read)j (Struct file *, char __user *, size_t, 直人 
用 来 从 设备 中 读 取 数 据 。 该 函数 指针 被 赋 为 NULL 值 时 , 将 导致 read 系统 调用 出 错 
并 返回 -EINVAL (“Invalid argument， 非 法 参数 ”)。 函 数 返回 非 负 值 表 示 成 功 读 
取 的 字 节 数 (返回 值 为 “signed size” 数 据 类 型 通常 就 是 目标 平台 上 的 固有 整数 
类 型 )。 ， 

ssize_t (*aio_read) (struct kiocb *, char _ _user *, size_t, loff_t); 
初始 化 一 个 异步 的 读 取 操作 即 在 函数 返回 之 前 可 能 不 会 完成 的 读 取 操作 。 如 
果 该 方法 为 NULL ， 所 有 的 操作 将 通过 read (同步 ) 处 理 。 


ssize t (*write) (struct file *, const char __uSer *, size t, Toff t *); 
向 设备 发 送 数据 。 如 果 没 有 这 个 函数 ,write 系统 调用 会 向 程序 返回 一 个 -EINVRAL。 
如 果 返 回 值 非 负 ， 则 表示 成 功 写 和 的 字 节 数 。 

ssize t (*aio write) (Struct kiocb *, const char __user *, size_t, Je 
初始 化 设备 上 的 异步 写 人 操作 。 

int (*readdir) (struct file *, void *, filldir_t); 
对 于 设备 文件 来 说 , 这 个 字段 应 该 为 NULL。 它 仅 用 于 读 取 目 录 ， 只 对 文件 系统 有 
用 。 
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unsigned int (*poll) (Struct file *, struct poll_table_struct *) 


Lt 


int 


int 


init 


poll 方 法 是 poll、epol! 和 select 这 三 个 系统 调用 的 后 端 实现 。 这 三 个 系统 调用 可 用 
来 查询 某 个 或 多 个 文件 描述 符 上 的 读 取 或 写 人 是 否 会 被 阻塞 ,pol! 方 法 应 该 返回 一 
个 位 掩 码 , 用 来 指出 非 阻塞 的 读 取 或 写 人 是 否 可 能 ,并 且 也 会 向 内 核 提 供 将 调用 进 
程 置 于 休眠 状态 直到 IO 变 为 可 能 时 的 信息 。 如 果 驱 动 程序 将 pol! 方法 定义 为 
NULL， 则 设备 会 被 认为 既 可 读 也 可 写 ， 并 且 不 会 被 阻塞 。 

(*ioctl) (struct inode *, struct file *, unsigned int, unsigned long); 
系统 调用 ioct! 提 供 了 一 种 执行 设备 特定 命令 的 方法 (如 格式 化 软盘 的 某 个 磁道 ,这 
既 不 是 读 操作 也 不 是 写 操作 )。 另 外 ， 内核 还 能 识别 一 部 分 ioct! 命 令 , 而 不 必 调 用 
fops 表 中 的 iocti。 如 果 设 备 不 提供 ioct! 入口 点 , 则 对 于 任何 内 核 未 预先 定义 的 请 
求 ，ioct! 系统 调用 将 返回 错误 ( -ENOTTY,,“No such ioctl for device ， 该 设备 无 
此 ioctl 命 令 ”)。 

{*mmap) (Struct file *, struct vm area_struct *); 


mmap 用 于 请 求 将 设备 内 存 映射 到 进程 地 址 空间 。 如 果 设 备 没 有 实现 这 个 方法 , 那 
么 mmap 系统 调用 将 返回 -ENODEV。 


(*open) (struct inode *, struct file *); 

尽管 这 始终 是 对 设备 文件 执行 的 第 一 个 操作 ,然而 却 并 不 要 求 驱动 程序 一 定 要 声明 
一 个 相应 的 方法 。 如 果 这 个 人 口 为 NULL, 设备 的 打开 操作 永远 成 功 , 但 系统 不 会 
通知 驱动 程序 。 

(*flush) (struct file *); 

对 flush 操作 的 调用 发 生 在 进程 关闭 设备 文件 描述 符 副本 的 时 候 ， 它 应 该 执行 (并 
等 待 ) 设备 上 尚 为 完结 的 操作 。 请 不 要 将 它 同 用 户 程序 使 用 的 fsync 操作 相 混 清 。 
目前 , flush 仅 仅 用 于 少数 几 个 驱动 程序 ， 比 如 ，SCSI 磁带 驱动 程序 用 它 来 确保 设 
备 被 关闭 之 前 所 有 的 数据 都 被 写 人 到 磁带 中 。 如 果 fiush 被 置 为 NULL, 内 核 将 简单 
地 忽略 用 户 应 用 程序 的 请 求 。 

{*release) (Struct inode *, struct file *); 


当 file 结构 被 释放 时 ,将 调用 这 个 操作 。 与 open 相仿 ， 也 可 以 将 release 设置 为 
NULL ( 注 5)。 


i 


家 


注意 ，release 并 不 是 在 进程 每 次 调用 close 时 都 会 被 调用 。 只 要 file 结构 被 共享 (如 
在 fork 或 dup 调用 之 后 )，release 就 会 等 到 所 有 的 副本 都 关闭 之 后 才 会 得 到 调用 。 如 果 
需要 在 关闭 任意 一 个 副本 时 刷新 那些 待 处 理 的 数据 ， 则 应 实现 fiush 方法 。 
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int (*fayne} (atruct file *7 struct QenNtry *, ‘Ine)y 
该 方法 是 fsync 系统 调用 的 后 端 实现 , 用户 调用 它 来 刷新 待 处 理 的 数据 。 如 果 驱 动 
程序 没有 实现 这 一 方法 ，jfsync 系统 调用 返回 -EINVAL。 

int (*aio_fsync}) (struct kiocb *, int); 
这 是 fsync 方法 的 异步 版 本 。 

dnt (*fapyne) (int, Struct file * 7 “inty); 
这 个 操作 用 来 通知 设备 其 FASYNC 标 志 发 生 了 变化 。 异步 通知 是 比较 高 级 的 话题 ， 
将 在 第 六 章 介绍 。 如 果 设 备 不 支持 异步 通知 ， 该 字段 可 以 是 NULL。 

int (*lock) (struct file *, int, struct fije_lock *); 
lock 方 法 用 于 实现 文件 锁定 , 锁定 是 常规 文件 不 可 缺少 的 特性 . 但 设备 驱动 程序 几 
平 从 来 不 会 实现 这 个 方法 。 


ssize t (*readv) (struct file *, const Struct iovec *, unsigned long, loff_t *); 

ssize t (*writev) (struct file *, const struct iovec *, nsigned long, loff t *); 
这 些 方法 用 来 实现 分 散 /聚集 型 的 读 写 操作 。 应 用 程序 有 时 需要 进行 涉及 多 个 内 存 
区 域 的 单 次 读 或 写 操作 , 利用 上 面 这 些 系统 调用 可 完成 这 类 工作 , 而 不 必 强 加 额外 
的 数据 拷贝 操作 。 如 果 这 些 函 数 指针 被 设置 为 NULL， 就 会 调用 read 和 write 方法 
(可 能 是 多 次 )。 

ssize t (*sendfile) (struct file *, Joff t *, size 七 read actor_t, void *); 
这 个 方法 实现 sendfile 系统 调用 的 读 取 部 分 。sendfile 系统 调用 以 最 小 的 复制 操作 
将 数据 从 一 个 文件 描述 符 移动 到 另 一 个 。 例 如, Web 服 务 器 可 以 利用 这 个 方法 将 某 
个 文件 的 内 容 发 送 到 网 络 连接 。 设 备 驱动 程序 通常 将 sendfile 设置 为 NULL。 


ssize_t (*sendpage) (struct file *, struct page *, int, size 七 loff_t *, 
14mnt)s 
sendpage 是 sendfile 系 统 调用 的 另外 一 半 , 它 由 内 核 调用 以 将 数据 发 送 到 对 应 的 文 
件 ， 每 次 一 个 数据 页 。 设 备 驱 动 程序 通常 也 不 需要 实现 sendpage。 


unsigned long (*get_unmapped area) (struct file *, unsigned long, 
unsigned long, unsigned long, unsigned long); 
该 方法 的 目的 是 在 进程 的 地 址 空间 中 找到 一 个 合适 的 位 置 ,以便 将 底层 设备 中 的 内 
存 段 映射 到 该 位 置 .该 任务 通常 由 内 存 管理 代码 完成 , 但 该 方法 的 存在 可 允许 驱动 
程序 强制 满足 特定 设备 需要 的 任何 对 齐 需求 。 大 部 分 驱动 程序 可 设置 该 方法 为 
NULLD 。 


int (*check_flags) (int) 


该 方法 允许 模块 检查 传递 给 fcntl(F_SETFL...) 调 用 的 标志 。 
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int {(*dir_notify) (struct file *, unsigned long); 
当 应 用 程序 使 用 fcntl 来 请 求 目录 改变 通知 上 时， 该 方法 将 被 调用 。 该 方法 仅 对 文件 
系统 有 有 用， 驱动 程序 不 必 实 现 dir_notify。 
scull 设 备 驱 动 程序 所 实现 的 只 是 最 重要 的 设备 方法 , 它 的 file_operations 结 构 被 初 
始 化 为 如 下 形式 : 


struct file operations scull_fops = { 


.OwnNer = THIS_MODULE , 
.llseek = scull_llseek, 
.read = scull_read, 
.Write = scull write, 
.ioctl = scull_ioctl, 
.open = scull_open, 
.release = scull_release, 


}:; 


这 个 声明 采用 了 标准 C 的 标记 化 结构 初始 化 语法 。 这 种 语法 是 值得 采用 的 , 因为 它 使 驱 
动 程序 在 结构 的 定义 发 生变 化 时 更 具 可 移植 性 , 并 且 使 得 代码 更 加 紧 凌 且 易 读 。 标记 化 
的 初始 化 方法 允许 对 结构 成 员 进行 重新 排列 。 在 某 些 场合 下 , 将 频繁 被 访问 的 成 员 放 在 
相同 的 硬件 缓存 行 上 ， 将 大 大 提高 性 能 。 


file 结构 


在 <linux/fs.h> 中 定义 的 struct file 是 设备 驱动 程序 所 使 用 的 第 二 个 最 重要 的 数据 结 
构 。 注意, file 结 构 与 用 户 空间 程序 中 的 FILE 没 有 任何 关联 。FILE 在 C 库 中 定义 且 
不 会 出 现在 内 核 代 码 中 ; 而 struct file 是 一 个 内 核 结构 , 它 不 会 出 现在 用 户 程序 中 。 


file 结构 代表 一 个 打开 的 文件 ( 它 并 不 仅仅 限定 于 设备 驱动 程序 ， 系 统 中 每 个 打开 的 
文件 在 内 核 空间 都 有 一 个 对 应 的 file 结构 )。 它 由 内 核 在 open 时 创建 ， 并 传递 给 在 该 
文件 上 进行 操作 的 所 有 函数 ,直到 最 后 的 close 函数 。 在 文件 的 所 有 实例 都 被 关闭 之 后 ， 
内 核 会 释放 这 个 数据 结构 。 


在 内 核 源码 中 , 指向 struct file 的 指针 通常 被 称 为 file 或 filp (“文件 指针 ”)。 为 
了 不 至 于 和 这 个 结构 本 身 相 混淆 , 我 们 一 致 将 该 指针 称 为 filp。 这样 , file 指 的 是 结 
构 本 身 ，filp 则 是 指向 该 结构 的 指针 。 


struct file 中 最 重要 的 成 员 罗 列 如 下 。 与 上 节 相 似 ， 这 张 清单 在 首次 阅读 时 可 以 略 
过 。 在 下 一 节 中 将 看 到 一 些 真 正 的 C 代码 ， 我 们 会 详细 讨论 其 中 的 某 些 字段 。 


mode_t f_mode; 


文件 模式 。 它 通过 FMODE_READ 和 FMODE_WRITE 位 来 标识 文件 是 否 可 读 或 可 写 ( 或 
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可 读 写 )。 读 者 可 能 会 认为 要 在 自己 的 open 或 ioctl 函数 中 查看 这 个 字段 ， 以 便 检 
查 是 否 拥有 读 / 写 访问 权限 , 但 由 于 内 核 在 调用 驱动 程序 的 read 和 write 前 已 经 检 
查 了 访问 权限 ,所 以 不 必 为 这 两 个 方法 检查 权限 ,在 没有 获得 对 应 访问 权限 而 打开 
文件 的 情况 下 , 对 文件 的 读 写 操作 将 被 内 核 拒绝 , 驱动 程序 无 需 为 此 而 作 额 外 的 判 
断 。 


loffst £ poss 


当前 的 读 / 写 位 置 。 1off_t 是 一 个 64 位 的 数 ( 用 gcc 的 术语 说 就 是 long 1long)。 
如 果 驱 动 程序 需要 知道 文件 中 的 当前 位 置 ， 可 以 读 取 这 个 值 ， 但 不 要 去 修改 它 。 
readiwrite 会 使 用 它们 接收 到 的 最 后 那个 指针 参数 来 更 新 这 一 位 置 , 而 不 是 直接 对 
filp->f_pos 进行 操作 。 这 一 规则 的 一 个 例外 是 liseek 方 法 , 该 方法 的 目的 本 身 
就 是 为 了 修改 文件 位 置 。 


unsigned int f_flags; 


文件 标志 ， 如 0_RDONLY、0O_NONBLOCK 和 0_SYNC。 为 了 检查 用 户 请 求 的 是 否 是 非 
阻塞 式 的 操作 (我 们 将 在 第 六 章 的 “阻塞 和 非 阻塞 操作 ”一 节 中 讨论 非 阻塞 IO )， 
驱动 程序 需要 检查 0_NONBLOCK 标 志 , 而 其 他 标志 很 少 用 到 。 注 意 ， 检 查 读 / 写 权 
限 应 该 查看 f_mode 而 不 是 f£_f1ags。 所 有 这 些 标志 都 定义 在 <linux/fcntl.h> 中 。 


struct file_ operations *f_op; 


与 文件 相关 的 操作 。 内 核 在 执行 open 操作 时 对 这 个 指针 赋值 ， 以 后 需要 处 理 这 些 
操作 时 就 读 取 这 个 指针 。filp->f_op 中 的 值 决 不 会 为 方便 引用 而 保存 起 来 ;也 
就 是 说 , 我 们 可 以 在 任何 需要 的 时 候 修改 文件 的 关联 操作 , 在 返回 给 调用 者 之 后 ， 
新 的 操作 方法 就 会 立即 生效 。 例 如 , 对 应 于 主 设备 号 1 (/dev/null、 /dev/zero 等 等 ) 
的 open 代 码 根据 要 打开 的 次 设备 号 替换 filp->f_op 中 的 操作 。 这 种 技巧 允许 相 
同 主 设备 号 下 的 设备 实现 多 种 操作 行为 , 而 不 会 增加 系统 调用 的 负担 。 这 种 替换 文 
件 操作 的 能 力 在 面向 对 象 编程 技术 中 称 为 “方法 重 载 ”。 


void *private_data; 


open 系统 调用 在 调用 驱动 程序 的 open 方法 前 将 这 个 指针 置 为 NULL。 驱 动 程序 可 
以 将 这 个 字段 用 于 任何 目的 或 者 忽略 这 个 字段 .驱动 程序 可 以 用 这 个 字段 指向 已 分 
配 的 数据 ， 但 是 一 定 要 在 内 核 销毁 f i 1 e 结构 前 在 release 方法 中 释放 内 存 。 
private_data 是 跨 系统 调用 时 保存 状态 信息 的 非常 有 用 的 资源 ,我 们 的 大 部 分 示 
例 都 使 用 了 它 。 


struct dentry *f_dentry; 


文件 对 应 的 目录 项 (dentry) 结构 。 除了 用 filp->f_dentry->d_inode 的 方式 来 
访问 索引 节点 结构 之 外 ， 设备 驱动 程序 的 开发 者 们 一 般 无 需 关 心 dentry 结构 。 
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实际 的 结构 里 还 有 其 他 一 些 字段 , 但 它们 对 于 设备 驱动 程序 并 没有 多 大 用 处 . 由 于 驱动 
程序 从 不 自己 填写 file 结构 ， 而 只 是 对 别处 创建 的 file 结构 进行 访问 ， 所 以 忽略 这 
些 字段 是 安全 的 。 


inode 结构 


内 核 用 inode 结构 在 内 部 表示 文件 ， 因 此 它 和 file 结 构 不 同 、 后 者 表示 打开 的 文件 描 
述 符 。 对 单个 文件 ， 可 能 会 有 许多 个 表示 打开 的 文件 描述 符 的 file 结构 ,但 它们 都 指 
向 单个 inode 结构 。 


inode 结 构 中 包含 了 大 量 有 关 文 件 的 信息 。 作为 常规 , 只 有 下 面 两 个 字段 对 编写 驱动 程 
序 代码 有 用 : 
dev_t i rdev; 
对 表示 设备 文件 的 inode 结构 ， 该 字段 包含 了 真正 的 设备 编号 。 
struct cdev *i_cdev; 


struct cdev 是 表示 字符 设备 的 内 核 的 内 部 结构 。 当 inode 指 向 一 个 字符 设备 文 
件 时 ， 读 字段 包含 了 指向 struct cdev 结构 的 指针 。 


i_rdev 的 类 型 在 2.5 开发 系列 版 本 中 发 生 了 变化 ， 这 破坏 了 大 量 驱 动 程序 代码 的 兼容 
性 。 为 了 鼓励 编写 可 移植 性 更 强 的 代码 ,内 核 开 发 者 增加 了 两 个 新 的 宏 ， 可 用 来 从 一 个 
inode 中 获得 主 设备 号 和 次 设备 号 : 


unsigned int iminor{struct inode *inode), 
unsigned int imajor{(struct inode *inode); 


为 了 防止 因为 类 似 的 改变 而 出 现 问 题 , 我 们 应 该 使 用 上 述 宏 , 而 不 是 直接 操作 i_raev。 


字符 设备 的 注册 


我 们 前 面 提 到 , 内 核 内 部 使 用 struct cdev 结 构 来 表示 字符 设备 。 在 内 核 调用 设备 的 
操作 之 前 ， 必 须 分 配 并 注册 一 个 或 者 多 个 上 述 结构 ( 注 6)。 为 此 ， 我 们 的 代码 应 包含 
<linuxicdeyv.h>， 其 中 定义 了 这 个 结构 以 及 与 其 相关 的 一 些 辅助 函数 。 


分 配 和 初始 化 上 述 结构 的 方式 有 两 种 。 如 果 读 者 打算 在 运行 时 获取 一 个 独立 的 caev 结 
构 ， 则 应 该 如 下 编写 代码 : 





注 6: “有 一 个 老 的 机 制 可 避免 使 用 cdev 结构 (我 们 将 在 “ 老 方法 ”一 节 中 讨论 )。 但 是 ,新 代 
码 应 使 用 新 的 技术 。 





struct cdev *my_cdev = cdev_alloc(); 
my_cdev->ops = &my_fops; 


这 时 , 你 可 以 将 cdev 结构 柳 人 到 自己 的 设备 特定 结构 中 ，scul! 就 是 这 样 做 的 。 这 种 情 
况 下 ， 我 们 需要 用 下 面 的 代码 来 初始 化 已 分 配 到 的 结构 : 

void cdev_initt{struct cdev *cdev, struct file_operations *fops): 
另外 ， 还 有 一 个 struct cdev 的 字段 需要 初始 化 。 和 file_operations 结构 类 似 ， 
struct cdev 也 有 一 个 所 有 者 字段 ， 应 被 设置 为 THIS_MODULE。 
在 cdev 结构 设置 好 之 后 ， 最 后 的 步骤 是 通过 下 面 的 调用 告诉 内 核 该 结构 的 信息 : 

int cdev_add(struct cdev *dev, dev_t num, unsigned int count); 
这 里 ,， dev 是 cdev 结构 , num 是 该 设备 对 应 的 第 一 个 设备 编号 ，count 是 应 该 和 该 设 
备 关 联 的 设备 编号 的 数量 。count 经 常 取 1, 但 是 在 某 些 情形 下 , 会 有 多 个 设备 编号 对 


应 于 一 个 特定 的 设备 。 例 如 ， 考 虑 SCSI 磁带 驱动 程序 ， 它 通过 每 个 物理 设备 的 多 个 次 
设备 号 来 允许 用 户 空间 选择 不 同 的 操作 模式 〈 比 如 密度 )。 


在 使 用 cdev_add 时 , 需要 牢记 重要 的 一 点 。 首 先 , 这 个 调用 可 能 会 失败 。 如 果 它 返回 一 
个 负 的 错误 码 ， 则 设备 不 会 被 添加 到 系统 中 。 但 这 个 调用 几乎 总 会 成 功 返 回 , 此 时 , 我 
们 又 面临 另 一 个 问题 : 只 要 cdev_add 返 回 了 , 我 们 的 设备 就 “ 活 ” 了 , 它 的 操作 就 会 被 
内 核 调用 。 因 此 ， 在 驱动 程序 还 没有 完全 准备 好 处 理 设 备 上 的 操作 上 时， 就 不 能 调用 
cdev_add, 

要 从 系统 中 移 除 一 个 字符 设备 ， 做 如 下 调用 : 


void cdev_dell(struct cdev *dev); 


要 清楚 的 是 ， 在 将 cdev 结构 传递 到 cdev_del 函数 之 后 ， 就 不 应 再 访问 cdev 结构 了 。 


Scull 中 的 设备 注册 
在 scull 内 部 ， 它 通过 struct scull_dev 的 结构 来 表示 每 个 设备 ， 该 结构 定义 如 下 : 


struct scull dev { 


struct scull_qset *data; /* 指向 第 一 个 量子 集 的 指针 */ 


int quantum; /* 当前 量子 的 大 小 */ 

int aset; /* 当前 数组 的 大 小 */ 

unsigned long size; /* 保存 在 其 中 的 数据 总 量 */ 
unsigned int access_key; /* 由 sculluid 和 scullpriv 使 用 */ 
struct semaphore sem; /* 互 斥 信号 量 */ 


struct cdev cdev; /* 字符 设备 结构 #/ 
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我 们 会 在 遇 到 该 结构 字段 的 时 候 讨 论 它们 ,而 现在 ,我 们 的 注意 力 集中 在 cdev 上 ， 即 
内 核 和 设备 间 的 接 帆 struct cdev。 该 结构 必须 如 上 所 述 地 被 初始 化 并 添加 到 系统 中 ， 
scull 中 完成 这 一 工作 的 代码 如 下 : 

static void scull_setup_cdev(struct scull dev *dev, int index) 


{ 


int err, devwno = MKDEV(scull_major, scull _minor + index); 


cdev_init(&dev->cdev, &scull. fops); 

dev->cdev .owner = THIS_MODULE; 

dev->cdev .ops = &scull_fops; 

err = cdev_add (gdev->cdev, devno, 1); 

/* Fail gracefully if need be */ 

if {err) 

printk (KERN NOTICE “Error %d adding scull%d", err, index); 
} 


因为 cdev 结构 被 符 入 到 了 struct scull_dev 中 ， 因 此 必须 调用 cdevy_init 来 执行 该 
结构 的 初始 化 。 


早期 的 办 法 

如 果 读 者 阅读 2.6 内 核 中 的 其 他 驱动 程序 代码 ， 也 许 会 注意 到 相当 数量 的 字符 设备 驱动 
程序 不 使 用 我 们 前 面 描述 过 的 cdev 接口 。 其 实 读者 看 到 的 是 尚未 升级 到 2.6 接口 的 老 
代码 。 因 为 这 些 代码 也 可 以 工作 , 因此 在 较 长 时 间 内 升级 可 能 不 会 发 生 。 为 了 完整 起 见 ， 
我 们 将 描述 老 的 字符 设备 注册 接口 , 但 新 的 代码 不 应 该 使 用 这 些 老 的 接口 , 因为 这 种 机 
制 会 在 将 来 的 内 核 中 消失 。 


注册 一 个 字符 设备 驱动 程序 的 经 典 方式 是 : 


int register_chrdev(unsigned int major, const char *name, 
struct file_operations *fops); 


这 里 , major 是 设备 的 主 设备 号 , name 是 驱动 程序 的 名 称 ( 出 现在 /proc/devices 中 )， 
而 fops 是 默认 的 file_operations 结构。 对 register_chrdev 的 调用 将 为 给 定 的 主 设 
备 号 注册 0 ~ 255 作为 次 设备 号 , 并 为 每 个 设备 建立 一 个 对 应 的 默认 cdev 结 构 。 使 用 这 
一 接口 的 驱动 程序 必须 能 够 处 理 所 有 256 个 次 设备 号 上 的 open 调 用 (不 论 它们 是 否 真正 
对 应 于 实际 的 设备 ) ， 而 且 也 不 能 使 用 大 于 255 的 主 设备 号 和 次 设备 号 。 


如 果 使 用 register_chrdev 函数 ， 将 自己 的 设备 从 系统 中 移 除 的 正确 国 数 是 : 


int unregister_chrdev{unsigned int major, const char *name) 


major 和 name 必须 与 传递 给 register_chrdev 函数 的 值 保持 一 致 ， 否 则 该 调用 会 失败 。 
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open 和 release 
现在 我 们 已 经 简单 地 浏览 了 这 些 字段 ， 下 面 将 在 实际 的 sculi 函数 中 使 用 这 些 字段 。 


open 方法 

open 方 法 提供 给 驱动 程序 以 初始 化 的 能 力 , 从 而 为 以 后 的 操作 完成 初始 化 做 准备 。 在 大 
部 分 驱动 程序 中 ，open 应 完成 如 下 工作 : 

。 ”检查 设备 特定 的 错误 (诸如 设备 未 就 绪 或 类 似 的 硬件 问题 ) 。 

。 ”如 果 设备 是 首次 打开 ， 则 对 其 进行 初始 化 。 

。 ”如 有 必要 ， 更 新 f_op 指针 。 

。 ”分 配 并 填写 置 于 filp->private_data 里 的 数据 结构 。 


然而 ， 首 先 要 做 的 就 是 确定 要 打开 的 有 具体 设备 。 注意 ，open 方法 的 原型 如 下 : 


int (*open) (struct inode *inode, struct file *filPp): 


其 中 的 inode 参数 在 其 i_cqdev 字段 中 包含 了 我 们 所 需要 的 信息 ， 即 我 们 先前 设置 的 
cdev 结构 。 唯 一 的 问题 是 , 我 们 通常 不 需要 cdev 结构 本 身 , 而 是 希望 得 到 包含 caev 
结构 的 scull_dev 结 构 。 C 语 言 可 帮助 程序 员 通 过 一 些 技巧 完成 这 类 转换 , 但 不 应 滥用 
这 类 技巧 , 它 会 使 得 代码 对 其 他 人 来 讲 难 于 阅读 和 理解 。 幸 运 的 是 , 在 这 种 情况 下 内 核 
黑客 已 经 帮助 我 们 实现 了 此 类 技巧 , 它 通过 定义 在 <linux/kernel.h> 中 的 container_of 宏 
实现 : 

container_of (pointer, container type, container_field); 
这 个 宏 需 要 一 个 container_field 字 段 的 指针 ,该 字段 包含 在 container_type 类 型 
的 结构 中 ,然后 返回 包含 该 字段 的 结构 指针 。 在 sculi_open 中 ， 这 个 宏 用 来 找到 适当 的 
设备 结构 : 

struct scull_dev *dev; /* device information */ 


dev = container_of (inode->i_cdev, struct scull_dev, cdev); 
filp->private_data = dev; /* for other methods */ 
一 旦 代码 找到 scul1_dev 结构 之 后 ，sculi 将 一 个 指针 保存 到 了 file 结构 的 
private_qdata 字段 中 ， 这 样 可 以 方便 今后 对 该 指针 的 访问 。 


另外 一 个 确定 要 打开 的 设备 的 方法 是 : 检查 保存 在 inode 结 构 中 的 次 设备 号 。 如果 读 者 
利用 register_chrdev 注 册 自 己 的 设备 , 则 必须 使 用 该 技术 .请 一 定 使 用 iminor 宏 从 inode 
结构 中 获得 次 设备 号 ， 并 确保 它 对 应 于 驱动 程序 真正 准备 打开 的 设备 。 
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The (slightly simplified} code for scull_open is: 


经 过 些微 简化 的 sculi_open 代码 如 下 : 


int scull_openlstruct inode *inode, struct file *filp) 
{ 


struct scull_dev *dev; /* device information */ 


dev = container_of {inode->i_cdev, struct scull_dev, cdev); 
filp->private. data = dev; /+ for other methods */ 


/i* now trim to 0 the length of the device if open was write-only */ 
if { (filp->f_flags & O ACCMODE) = = O_WRONLY) { 
scull_trim(dev); /* ignore errors */ 
} 
return 0; /* Success */ 


} 


这 段 代 码 看 起 来 相当 短小 ， 因 为 在 调用 open 时 它 并 没有 做 针对 某 个 特定 设备 的 任何 处 
理 。 由 于 scul! 设 备 被 设计 为 全 局 且 持 久 的 , 这 段 代 码 无 需 做 什么 工作 . 特别 是 , 由 于 我 
们 并 不 维护 scul1 的 打开 计数 , 而 只 维护 模块 的 使 用 计数 , 因此 也 就 没有 类 似 于 “首次 打 
开 时 初始 化 设备 ”的 这 类 动作 。 


对 设备 唯一 的 实际 操作 是 ， 当 设备 以 写 方式 打开 时 ， 它 的 长 度 将 被 截 为 0。 出 现 这 种 特 
性 的 原因 在 于 , 在 设计 上 , 当 用 更 短 的 文件 覆盖 一 个 scull 设 备 时 , 设备 数据 区 应 相应 缩 
小 。 这 与 用 写 入 方式 打开 普通 文件 时 将 长 度 截 短 为 0 的 方式 很 相似 。 如 果 设 备 以 读 取 方 
式 打 开 ， 则 什么 也 不 做 。 


稍 后 在 浏览 其 他 scull 设 备 类 型 的 个 性 代码 时 ,我 们 将 会 看 到 真正 的 初始 化 工作 是 如 何 完 
成 的 。 


release 方 法 

release 方 法 的 作用 正好 与 open 相反 。 有 了 时 读者 会 发 现 这 个 方法 的 实现 被 称 为 device_ 
close, 而 不 是 device_release。 无 论 是 哪 种 形式 ， 这 个 设备 方法 都 应 该 完成 下 面 的 
任务 : 

。 ”释放 由 open 分 配 的 、 保 存在 filp->private_data 中 的 所 有 内 容 。 

。 ”在 最 后 一 次 关闭 操作 时 关闭 设备 。 


scull 的 基本 模型 没有 需要 关闭 的 硬件 ， 因 此 所 需 的 代码 量 最 少 ( 注 7): 








注 了 : 因为 Scuil_opem 为 每 种 设备 都 替换 了 不 同 的 filp->f_op, 所 以 不 同 的 设备 由 不 同 的 函 
数 关闭 。 我 们 随后 会 讨论 这 些 内 容 。 





int scull_releasel(struct inode *inode, struct file *filp) 
{ 

return 0; 
} 


当 关 闭 一 个 设备 文件 的 次 数 比 打开 它 的 次 数 多 时 ,系统 中 会 发 生 什么 情况 呢 ? 毕竟 ,dup 
和 fork 系统 调用 都 会 在 不 调用 open 的 情况 下 创建 已 打开 文件 的 副本 ， 但 每 一 个 副本 都 
会 在 程序 终止 时 被 关闭 。 例如， 大 多 数 程序 从 来 不 打开 它们 的 srdin 文件 (或 设备 ), 但 
它们 都 会 在 终止 时 被 关闭 。 那么 , 驱动 程序 如 何 才能 知道 一 个 打开 的 设备 文件 要 被 真正 
关闭 呢 ? 


答案 很 简单 : 并 不 是 每 个 close 系统 调用 都 会 引起 对 release 方 法 的 调用 。 只 有 那些 真正 
释放 设备 数据 结构 的 ciose 调 用 才 会 调用 这 个 方法 .内 核对 每 个 file 结 构 维 护 其 被 使 用 
多 少 次 的 计数 器 。 无 论 是 fork 还 是 dup, 都 不 会 创建 新 的 数据 结构 ( 仅 由 open 创 建 ), 它 
们 只 是 增加 已 有 结构 中 的 计数 。 只 有 在 file 结构 的 计数 归 0 时 ,ciose 系统 调用 才 会 执 
行 release 方 法 , 这 只 在 删除 这 个 结构 时 才 会 发 生 。release 方 法 与 close 系统 调用 间 的 关 
系 保证 了 对 于 每 次 open 驱动 程序 只 会 看 到 对 应 的 一 次 release 调用 。 


注意 : flush 方 法 在 应 用 程序 每 次 调用 close 时 都 会 被 调用 。 不 过 ,很 省 有 驱动 程序 会 去 
实现 ftush， 因 为 在 close 时 并 没有 什么 事情 需要 去 做 ， 除 非 release 被 调用 。 


正如 读者 猜想 的 那样 , 甚至 在 应 用 程序 还 未 显 式 地 关闭 它 所 打开 的 文件 就 终止 时 , 以 上 
的 讨论 同样 也 是 适用 的 : 内 核 在 进程 退出 的 时 候 ， 通 过 在 内 部 使 用 close 系统 调用 自动 
关闭 所 有 相关 的 文件 。 


scull 的 内 存 使 用 


在 介绍 read 和 write 操作 以 前 , 我 们 最 好 先 看 看 scul! 如 何 并 且 为 何 进行 内 存 分 配 。 为 了 
彻底 理解 代码 ， 我 们 需要 知道 “如 何 分 配 ”， 而 “为 何 分 配 ” 则 表明 了 驱动 程序 编写 者 
所 需 做 出 的 选择 ， 尽 管 scul! 作为 设备 来 说 肯定 还 不 具备 代表 性 。 


本 节 只 讲解 scul! 中 的 内 存 分配 策 略 , 而 不 会 涉及 编写 实际 驱动 程序 时 所 需要 的 硬件 管理 
技巧 。 这 些 技巧 将 在 第 九 章 和 第 十 章 中 介绍 。 因 此 , 如 果 读 者 对 面向 内 存 操作 的 scul! 驱 
动 程序 的 内 部 工作 原理 不 感 兴趣 的 话 ， 可 以 跳 过 这 一 节 。 


scull 使 用 的 内 存 区 域 这 里 也 称 为 设备 ,其 长 度 是 可 变 的 。 写 得 越 多 , 它 就 变 得 越 长 ; 用 
更 短 的 文件 以 覆盖 方式 写 设备 时 则 会 变 短 。 


scull 驱动 程序 引入 了 Linux 内 核 中 用 于 内 存 管理 的 两 个 核心 函数 。 这 两 个 函数 定义 在 
<linuxlstab.h> 中 ， 它 们 是 : 
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void *kmalloc(size_t size, int flags); 
void kfree(void *ptr); 


对 kmalloc 的 调用 将 试图 分 配 size 个 字 节 大 小 的 内 存 ; 其 返回 值 指向 该 内 存 的 指针 , 分 
配 失败 时 返回 NULL。flags 参数 用 来 描述 内 存 的 分 配方 法 , 我 们 将 在 第 八 章 详细 描述 
这 些 标志 。 到 目前 为 止 , 我 们 始终 使 用 GFP_KERNEL。 由 这 个 函数 分 配 的 内 存 应 该 通过 
Kfree 释放 。 我 们 不 应 该 将 非 kmalloc 返回 的 指针 传递 给 kfree。 但是, 将 NULL 指针 传递 
给 kfree 是 合法 的 。 


对 分 配 大 的 内 存 区 域 来 说 , kmalloc 并 不 是 最 有 效 的 方法 (参见 第 八 章 ), 因此 scul! 的 实 
现 方法 并 不 是 很 巧妙 。 但 更 为 巧妙 的 实现 其 代码 读 起 来 会 较 困 难 , 而 本 节 的 目的 只 是 讲 
解 read 和 write， 并 非 内 存 管理 。 这 也 就 是 为 什么 虽然 分 配 整个 页 面 会 更 有 效 ， 但 代码 
只 使 用 了 kmalloc 和 kfree， 而 没有 采取 分 配 整个 页 面 的 操作 的 原因 。 


男 一 方面 , 从 理论 和 实际 的 角度 考虑 , 我 们 不 想 限 制 “ 设 备 ” 的 尺寸 。 从 理论 角度 来 看 ， 
对 所 管理 的 数据 项 任意 增加 限制 总 是 很 精 糕 的 想法 。 从 实际 角度 来 看 , 为 了 在 内 存 短缺 
的 情况 下 进行 测试 , 可 利用 scul! 暂 时 将 系统 的 内 存 吃 光 。 进行 这 样 的 测试 有 助 于 了 解 系 
统 内 部 。 可 以 使 用 命令 cp /dev/zero /devw/sculi0 用 光 所 有 的 系统 RAM， 也 可 以 用 dd 工 
具 选 择 复制 多 少数 据 到 scull 设备 中 。 


在 scull 中 , 每 个 设备 都 是 一 个 指针 链表 , 其 中 每 个 指针 都 指向 一 个 scull_qset 结构 。 
默认 情况 下 ， 每 一 个 这 样 的 结构 通过 一 个 中 间 指 针 数 组 最 多 可 引用 4 000 000 个 字 节 。 
我 们 发 布 的 源 代码 使 用 了 一 个 有 1000 个 指针 的 数组 , 每 个 指针 指向 一 个 4000 字 节 的 区 
域 。 我 们 把 每 一 个 内 存 区 称 为 一 个 量子 ， 而 这 个 指针 数组 (或 它 的 长 度 ) 称 为 量子 集 。 
scull 设备 和 它 的 内 存 区 如 图 3-1 所 示 。 





图 3-1: scull 设备 的 布局 
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这 样 ， 选 择 的 参数 使 得 向 scxl 写 和 一 个 字 节 就 会 消耗 8000 或 12000 个 字 节 的 内 存 : 每 
个 量子 占用 4000 个 字 节 ,而 一 个 量子 集 占 用 4000 或 8000 个 字 节 (取决 于 目标 平台 上 的 
指针 本 身 占 用 32 位 还 是 64 位 )。 然 而 ， 如 果 向 scul! 写 和 人 大量 的 数据 ， 链 表 的 开支 并 不 
会 太 大 。 每 4MB 数据 只 对 应 一 个 链表 元 素 ， 而 设备 的 最 大 尺寸 受 计 算 机 内 存 大 小 的 限 
制 。 


为 量子 和 靶子 集 选 择 合 适 的 数值 是 一 个 策略 问题 而 非 机 制 问题 ,而 且 最 优 数 值 依赖 于 如 
何 使 用 设备 。 因 此 sculi 设 备 的 驱动 程序 不 应 对 量子 和 量子 集 的 尺寸 强制 使 用 某 个 特定 的 
数值 ,在 sculi 设 备 中 ,用 户 可 以 采用 几 种 方式 来 修改 这 些 值 : 在 编译 时 , 可 以 修改 scull.h 
中 的 宏 SCULL_QUANTUM 和 SCULL_QSET; 而 在 模块 加 载 时 , 可 以 设置 scull_quantum 
和 scull_qset 的 整数 值 ， 或 者 在 运行 时 ， 使 用 ioct! 修改 当前 值 以 及 默认 值 。 


使 用 宏和 整数 值 同 时 允许 在 编译 期 间 和 加 载 阶段 进行 配置 ,这 种 方法 和 前 面 选择 主 设备 
号 的 方法 类 似 。 对 于 驱动 程序 中 任何 不 确定 的 或 与 策略 相关 的 数值 , 我 们 都 可 以 使 用 这 
种 技巧 。 


余下 的 唯一 问题 是 如 何 选择 默认 数值 。 在 这 个 例子 里 , 量子 和 量子 集 未 充分 填 满 会 导致 
内 存 浪 费 , 而 量子 和 量子 集 过 小 则 会 在 进行 内 存 分 配 、 释放 和 指针 链接 等 操作 时 增加 系 
统 开销 , 默认 数值 的 选择 问题 就 在 于 寻找 这 两 者 之 间 的 最 佳 平衡 点 。 此外, 还 必须 考虑 
kmalloc 的 内 部 设计 , 然而 目前 我 们 还 无 法 涉及 这 一 点 。kmalloc 的 内 部 结构 将 在 第 八 章 
中 探讨 。 默认 数值 的 选择 基于 这 样 的 假设 : 在 测试 scull 时 , 可 能 会 有 大 块 的 数据 写 和 人 其 
中 ,但 大 多 数 情况 下 ， 对 该 设备 的 正常 使 用 可 能 只 传递 几 KB 的 数据 量 。 


我 们 已 经 看 到 内 部 表示 scull 设 备 的 scull_dev 结构。 该 结构 的 quantum 和 qset 字 有 段 
分 别 保存 设备 的 量子 和 量子 集 大 小 。 但 是 ,实际 的 数据 由 另外 的 结构 处 理 , 该 结构 称 为 


struct scull_ qset: 


struct scull qset 1 

void **data; 

struct scull_qset *next; 
Fr 


下 面 的 代码 片段 说 明了 如 何 利用 struct scull_dev 和 struct scull_qset 保 存 数 
据 ,scull_trim 函数 负责 释放 整个 数据 区 , 并 且 在 文件 以 写 人 方式 打开 时 由 scull_open 调 
用 。 它 简单 地 遍历 链表 ， 并 释放 所 有 找到 的 量子 和 量子 集 。 


int scull_trim(struct scull_dev *dev) 
{ 
struct scull_qset *next, *dptr; 
int qset = dev->qset;  /* “dev” 非 空 */ 
int i; 
for (dptr = dev->data; dptr; dptr = next) { /* 所 有 链表 项 */ 
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it {dptr->data) { 
for (i = 0; i < qset; i++) 
kfree(dptr->datal[il]}; 
kfree(dptr->data); 
dptr->data = NULL:; 
} 
next = dptr->next; 
kfree (dptr); 
} 
Gev->size = 0; 
dev->quantum = scull. quantum; 
dev->qset = scull_qset; 
dev->data = NULL; 
return 0; 
} 


模块 的 清除 函数 也 调用 scull_trim 函数 ， 以 便 将 由 scull 所 使 用 的 内 存 返回 给 系统 。 


read 和 write 


read 和 write 方法 完成 的 任务 是 相似 的 ， 亦 即 ， 拷 贝 数据 到 应 用 程序 空间 ， 或 反 过 来 从 
应 用 程序 空间 拷贝 数据 。 因 此 ， 它 们 的 原型 很 相似 ， 不 妨 同 时 介绍 它们 : 


ssize_t read{struct file *filp, char _ _user *buff, 
size_t count, loff_t *offp); 
ssize _t write(struct file *filp, const char _ _user *buff, 


size_t count, loff t *offp); 


对 于 这 两 个 方法 ， 参 数 filp 是 文件 指针 ， 参 数 count 是 请 求 传输 的 数据 长 度 。 参 数 
buff 是 指向 用 户 空间 的 缓冲 区 ,这 个 缓冲 区 或 者 保存 要 写 人 的 数据 ， 或 者 是 一 个 存放 
新 读 人 数据 的 空 缓冲 区 。 最 后 的 of fp 是 一 个 指向 “long offset type (长 偏 移 量 类 型 )” 
对 象 的 指针 ， 这 个 对 象 指明 用 户 在 文件 中 进行 存 取 操 作 的 位 置 。 返 回 值 是 “signed size 
type (有 符号 的 尺寸 类 型 )”， 后 面 会 谈 到 它 的 用 法 。 


需要 再 次 指出 的 是 ，read 和 write 方法 的 buff 参数 是 用 户 空间 的 指针 。 因 此 ， 内 核 代 
码 不 能 直接 引用 其 中 的 内 容 。 出 现 这 种 限制 的 原因 有 如 下 几 个 : 


。 ” 随 着 驱动 程序 所 运行 的 架构 的 不 同 或 者 内 核 配置 的 不 同 , 在 内 核 模式 中 运行 时 , 用 
户 空 间 的 指针 可 能 是 无 效 的 。 该 地 址 可 能 根本 无 法 被 映射 到 内 核 空 间 , 或 者 可 能 指 
向 某 些 随机 数据 。 

。 “即使 该 指针 在 内 核 空间 中 代表 相同 的 东西 , 但 用 户 空间 的 内 存 是 分 页 的 ,而 在 系统 
调用 被 调用 时 , 涉及 到 的 内 存 可 能 根本 就 不 在 RAM 中 。 对 用 户 空间 内 存 的 直接 引 
用 将 导致 页 错误 ， 而 这 对 内 核 代 码 来 说 是 不 允许 发 生 的 事情 。 其 结果 可 能 是 一 个 
“oops”， 它 将 导致 调用 该 系统 调用 的 进程 死亡 。 
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。 ”我 们 讨论 的 指针 可 能 由 用 户 程序 提供 , 而 该 程序 可 能 存在 缺陷 或 者 是 个 恶意 程序 。 
如 果 我 们 的 驱动 程序 富 目 引用 用 户 提供 的 指针 , 将 导致 系统 出 现 打开 的 后 门 ,从 而 
允许 用 户 空间 程序 随意 访问 或 宪 盖 系统 中 的 内 存 。 如 果 读 者 不 打算 因为 自己 的 驱动 
程序 而 危及 用 户 系统 的 安全 性 ， 则 永远 不 应 直接 引用 用 户 空间 指针 。 


很 显然 ,驱动 程序 必须 访问 用 户 空 间 的 缓冲 区 以 便 完成 自己 的 工作 。 为 了 人 确保 安全 , 这 
种 访问 应 始终 通过 内 核 提 供 的 专用 函数 完成 。 我 们 将 在 这 里 介绍 其 中 几 个 这 类 函数 (在 
<asmluaccess.h> 中 定义 )， 其 他 的 函数 将 在 第 六 章 的 “使 用 ioctl 的 参数 ”一 节 中 讲述 ， 
这 些 函 数 使 用 了 一 些 特殊 的 、 架 构 相 关 的 方法 来 确保 在 内 核 和 用 户 空间 之 间 安 全 、 正确 
地 交换 数据 。 


sea 的 read 和 write 代码 要 做 的 工作 就 是 在 用 户 地 址 空间 和 内 核 地 址 空间 之 间 进 行 整 段 
数据 的 拷贝 .这 种 能 力 是 由 下 面 的 内 核 函 数 提供 的 ,它们 用 于 拷贝 任意 的 一 段 字 节 序 列 ， 
这 也 是 大 多 数 read 和 wrire 方法 实现 的 核心 部 分 : 
unsigned long copy_to_userl(void _ .user *to, 
const void *from, 
unsigned long count); 
unsigned long copy._ from user (void *to, 


const void _. _user *from, 
unsigned long count); 


虽然 这 些 函 数 的 行为 很 像 通 常 的 memcpy 函数 , 但 当 内 核 空 间 内 运行 的 代码 访问 用 户 空 
间 时 要 多 加 小 心 。 被 寻 址 的 用 户 空间 的 页 面 可 能 当前 并 不 在 内 存 中 , 于 是 虚拟 内 存 子 系 
统 会 将 该 进程 转 人 睡眠 状态 ,直到 该 页 面 被 传送 至 期 望 的 位 置 。 例 如 ， 当 页 面 必 须 从 交 
换 空间 取 回 时 ,这 样 的 情况 就 会 发 生 。 对 于 驱动 程序 编写 人 员 来 说 ,这 带 来 的 结果 就 是 
访问 用 户 空间 的 任何 函数 都 必须 是 可 重 入 的 ,并 且 必 须 能 和 其 他 驱动 程序 函数 并 发 执行 ， 
更 特别 的 是 ， 必 须 处 于 能 够 合法 休眠 的 状态 。 我 们 将 在 第 五 章 详细 讨论 相关 话题 。 


这 两 个 函数 的 作用 并 不 限于 在 内 核 空间 和 用 户 空间 之 间 持 贝 数据 ,它们 还 检查 用 户 空间 
的 指针 是 否 有 效 。 如 果 指 针 无 效 ， 就 不 会 进行 拷贝 ; 另 一 方面 ,如果 在 拷贝 过 程 中 遇 到 
无 效 地 址 ， 则 仅仅 会 复制 部 分 数据 。 在 这 两 种 情况 下 , 返回 值 是 还 需要 拷贝 的 内 存 数量 
值 。 scull 代 码 如 果 发 现 这 样 的 错误 返回 ( 即 返回 值 不 为 0 时 ), 会 给 用 户 返 回 -RFAULT。 


关于 用 户 空间 访问 和 无 效用 户 空间 指针 的 内 容 是 相对 高 级 的 话题 ,第 六 章 会 对 它们 进行 
进一步 讨论 。 如 果 并 不 需要 检查 用 户 空间 指针 , 那么 建议 读者 转 而 调用 __copy_to_user 
和 __copy_from_user。 在 预先 知道 参数 已 经 检查 过 时 , 这 两 个 函数 还 是 很 有 用 的 。 但 要 
小 心 的 是 , 如 果 我 们 并 没有 真正 检查 传递 给 这 些 函 数 的 用 户 空 间 指针 , 则 可 能 会 导致 内 
核 骨 溃 和 /7 或 建立 安全 漏洞 。 
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至 于 实际 的 设备 方法 ，read 方法 的 任务 是 从 设备 拷贝 数据 到 用 户 空间 (使 用 copy_!o_ 
user)， 而 write 方法 则 是 从 用 户 空间 拷贝 数据 到 设备 上 (使 用 copy_from_user)。 每 次 
read 或 write 系统 调用 都 会 请 求 一 定数 目的 字 节 传输 ,不 过 驱动 程序 也 并 不 限制 小 数据 
量 的 传输 一 一 读 / 写 之 间 的 确切 规则 还 是 有 些 细微 差异 的 ， 本 章 后 面 的 内 容 中 会 提 到 。 


无 论 这 些 方法 传输 了 多 少数 据 , 一 般 而 言 都 应 更 新 *of fp 所 表示 的 文件 位 置 , 以 便 反 映 
在 新 系统 调用 成 功 完成 之 后 当前 的 文件 位 置 。 适当 情况 下 , 内 核 会 将 文件 位 置 的 改变 传 
播 回 file 结构 。 但 是 ，pread 和 pwrite 系统 调用 具有 不 同 的 语义 ; 这 两 个 系统 调用 从 
一 个 给 定 的 文件 偏 移 量 开始 操作 ,并 且 不 会 修改 文件 位 置 。 它 们 会 传人 一 个 指针 ,该 指 
针 指向 用 户 提供 的 位 置 ， 而 且 会 丢弃 驱动 程序 所 作 的 任何 修改 。 


图 3-2 表 明了 一 个 典型 的 read 实现 是 如 何 使 用 其 参数 的 。 


内 核 空间 
(不 可 交换 ) 





图 3-2: read 的 参数 


出 错时 ，read 和 write 方法 都 返回 一 个 负 值 。 大 于 等 于 0 的 返回 值 告诉 调用 程序 成 功 传 
输 了 多 少 字 节 。 如果 在 正确 传输 部 分 数据 之 后 发 生 了 错误 ， 则 返回 值 必须 是 成 功 传输 的 
字 节 数 , 但 这 个 错误 只 能 在 下 一 次 函数 调用 时 才 会 得 到 报告 。 当 然 ， 这 种 实现 惯例 要 求 
驱动 程序 必须 记 住 错误 的 发 生 ， 这 样 才 能 在 将 来 把 错误 状态 返回 给 应 用 程序 。 


尽管 内 核 函数 通过 返回 负 值 来 表示 错误 , 而 且 该 返回 值 表明 了 错误 的 类 型 见 第 二 章 )， 
但 运行 在 用 户 空间 的 程序 看 到 的 始终 是 作为 返回 值 的 -1。 为 了 找到 出 错 原因 , 用 户 空间 
的 程序 必须 访问 errno 变量 。 用 户 空间 的 这 种 行为 源 于 POSIX 标准 ， 但 该 标准 并 未 对 
内 核 内 部 的 操作 做 任何 要 求 。 
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read 方法 
调用 程序 对 read 的 返回 值 解释 如 下 : 


。 “如果 返回 值 等 于 传递 给 read 系统 调用 的 count 参数 , 则 说 明 所 请 求 的 字 节 数 传输 
成 功 完成 了 。 这 是 最 理想 的 情况 。 


。 ”如 果 返 回 值 是 正 的 ,但 是 比 count 小 ， 则 说 明 只 有 部 分 数据 成 功 传送 。 这 种 情况 
因 设备 的 不 同 可 能 有 许多 原因 。 大 部 分 情况 下 , 程序 会 重新 读数 据 。 例如 ,如 果 用 
fread 函数 读数 据 ， 这 个 库 函 数 就 会 不 断 调用 系统 调用 ， 直 至 所 请 求 的 数据 传输 完 
毕 为 止 。 

。 ”如 果 返 回 值 为 0， 则 表示 已 经 到 达 了 文件 尾 。 


。 ” 负 值 意味 着 发 生 了 错误 , 该 值 指明 了 发 生 了 什么 错误 , 错误 码 在 <linux/errno.h> 中 
定义 ,比如 这 样 的 一 些 错 误 : -EINTR( 系统 调用 被 中 断 ) 或 -EFAULT( 无效 地 址 )。 


上 面 的 清单 遗漏 了 一 种 情况 ， 就 是 “现在 还 没有 数据 ， 但 以 后 可 能 会 有 "。 在 这 种 情况 
下 ，read 系统 调用 应 该 阻塞 。 我 们 将 在 第 六 章 中 讲述 阻塞 读 取 。 


scull 代码 利用 了 这 些 规则 , 特别 地 ， 它 利用 了 部 分 读 取 的 规则 。 每 一 次 调用 scull_read 
时 只 处 理 一 个 数据 量子 ， 而 不 必 通 过 一 个 循环 来 收集 所 有 数据 ; 这 样 一 来 代码 就 更 短 、 
更 易 读 了 。 如 果 读 取 数 据 的 程序 确实 需要 更 多 的 数据 ， 那 么 它 可 以 重新 调用 这 个 调用 。 
如 果 用 标准 MO 库 (如 fread 等 ) 读 取 设 备 , 应 用 程序 将 不 会 注意 到 数据 传送 的 量子 化 过 
程 。 


如 果 当 前 的 读 取 位 置 超出 了 设备 的 大 小 , scull 的 read 方 法 就 返回 0, 以 便 告 知 程序 这 里 
已 经 没有 数据 了 ( 换 句 话说 就 是 已 经 到 文件 尾 了 )。 如 果 进 程 A 正 在 读 取 设备 ， 而 此 时 
进程 B 以 写 入 模式 打开 了 这 个 设备 ,于 是 设备 会 被 截断 为 长 度 0,， 这 种 情况 是 有 可 能 发 
生 的 。 这 时 ， 进 程 A 突然 发 现 自己 超过 了 文件 尾 ， 并 且 在 下 次 调用 read 时 返回 0。 


下 面 是 read 的 代码 (忽略 了 对 down_interruptible 调用 ， 对 此 我 们 将 在 下 一 章 介绍 ): 


ssize_t scull_readl(struct file *filp, char 
loff_t *f_pos) 


_ user *buf, size_t count, 
{ 

struct scull_dev *dev = filp->private_data; 

struct scull_qset *dptr; /* 第 一 个 链表 项 */ 

int quantum = dev->quantum, qset = dev->qset; 

int itemsize = quantum * qset; /* 该 链表 项 中 有 多 少 字 节 */ 

int item, s. pos, dq_pos, rest; 

ssize_t retval = 0; 


if (down._interruptible!(&kdev->sem)) 
return -ERESTARTSYS; 
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if (*f_pos >= dev->size) 
goto out; 

if (*f_pos + count > dev->size) 
count = dev->size - *f_pos; 


/* 在 量子 集中 寻找 链表 项 、qset 索引 以 及 偏 移 量 */ 

item = {long)*f pos / itemsize; 

rest = {long)*f pos % itemsize; 

s_pos = rest / quantum; q_pos = rest % quantum; 


/* 沿 该 链表 前 行 ， 直 到 正确 的 位 置 (在 其 他 地 方 定义 ) */ 
dptr = scull follow(dev, item); 


if {dptr = = NULL || !dptr->data || ! dptr->dqata[s_pos]) 
goto out; /* don't fill holes */ 


/* 读 取 该 量子 的 数据 直到 结尾 */ 
if (count > quantum - q_pos) 
Count = quantum - q_pos; 


if {copy_to_user(buf, dptr->data[ls_pos] + q pos, count)) { 
retval = -EFAULT; 
goto out; 

} 

*f_pos += Count; 

retval = count; 


out: 


up{&dev->sem); 
return retval; 


write 方法 
与 read 类 似 ， 根 据 如 下 返回 值 规则 、write 也 能 传输 少 于 请 求 的 数据 量 : 


如 果 返 回 值 等 于 count ， 则 完成 了 所 请 求 数目 的 字 节 传送 。 


如 果 返 回 值 是 正 的 ， 但 小 于 count ， 则 只 传输 了 部 分 数据 。 程 序 很 可 能 再 次 试图 
写 和 余下 的 数据 。 


如 果 值 为 0, 意味 着 什么 也 没 写 人 。 这 个 结果 不 是 错误 , 而 且 也 没有 理由 返回 一 个 
错误 码 。 再 次 重申 , 标准 库 会 重复 调用 write。 在 第 六 章 介 绍 阻 塞 式 write 时 ,我们 
将 详细 说 明 这 种 情形 。 


负 值 意味 发 生 了 错误 ， 与 read 相同 ， 有 效 的 错误 码 定义 在 <linux/errno.h> 中 。 


不 幸 的 是 ,有些 错 误 程序 只 进行 了 部 分 传输 就 报错 并 异常 退出 。 这 种 情况 的 发 生 是 由 于 
程序 员 习 惯 于 认定 write 调用 要 么 失败 要 么 就 完全 成 功 。 在 大 多 数 时 候 的 确 是 这 样 的 , 设 


72 


第 三 章 





备 驱动 也 应 对 此 进行 支持 。 这 种 局 限 性 在 scul! 的 实现 中 可 以 弥补 ,但 我 们 不 想 把 代码 搞 
得 太 复杂 ， 能 说 明 问 题 就 行 了 。 


与 read 方 法 一 样 ，scull 的 write 代码 每 次 只 处 理 一 个 量子 : 


ssize_t scull_write{struct file *filp, const char 


{ 


User *buf, size t count, 


off tom) 


struct scull_dev *dev = filp->private data; 

struct scull_qset *dptr; 

int quantum = dev->quantum, qset = dev->qset; 

int itemsize = quantum * qset; 

int item, s_pos, q pos, rest; 

ssize_t retval = -ENOMEM; /* “goto out” 语 名 使 用 的 值 */ 


if (down_interruptible(&kdev->sem)) 
return -ERESTARTSYS; 


/* 在 量子 集中 寻找 链表 项 、qset 索引 以 及 偏 移 量 */ 

item = (long)*f_pos / itemsize; 

rest = (long)*f pos % itemsize; 

S_pos = rest / quantum; q_pos = rest % quantum; 


/* 沿 该 链表 前 行 ， 直 到 正确 的 位 置 (在 其 他 地 方 定义 ) */ 
dptr = scull_follow{(dev, item):; 
it {dptr = = NULL) 
goto out; 
if (1dptr->data) { 
dptr->data = Jamalloc(qset * sizeof(char *), GFP_KERNEL); 
if {!dptr->data) 
goto out; 
memset {dptr->data, 0, dqset * sizeof(char *)); 
} 
if (!dptr->dqata[s_pos]) { 
dptr->data[s_pos] = kmalloc {quantum, GFP_KERNEL); 
if (!dptr->datals_pos]) 
goto out; 


} 

/* 将 数据 写 人 该 量子 ， 直 到 结尾 */ 

if (count > quantum - q_pos) 
count = qantum - q_pos; 


if (copy_from user(dptr->data[ls_pos]+q pos, buf, count)) { 
retval = -EFAULT; 
goto out; 

} 

*f_pos += count; 

retval = count; 


/* 更 新 文件 大 小 */ 
if (dev->size < *f_pos) 
Gev->size = *f_pos; 
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out: 
up{&kdev->sem); 
return retval; 


readv 和 writev 


Unix 系统 很 早 就 已 支持 两 个 可 选 的 系统 调用 : readv 和 writev。 这 些 “ 向 量 ” 型 的 函数 
具有 一 个 结构 数组 ， 每 个 结构 包含 一 个 指向 缓冲 区 的 指针 和 一 个 长 度 值 。readv 调用 可 
用 于 将 指定 数量 的 数据 依次 读 和 人 每 个 缓冲 区 .writey 则 是 把 各 个 缓冲 区 的 内 容 收 集 起 来 ， 
并 将 它们 在 一 次 写 入 操作 中 进行 输出 。 


如 果 驱 动 程序 没有 提供 用 于 处 理 向 量 操作 的 方法 , readv 和 writev 会 通过 对 read 和 write 
方法 的 多 次 调用 来 实现 。 但 在 很 多 情况 下 ， 直 接 在 驱动 程序 中 实现 readv 和 writev 可 以 
获得 更 高 的 效率 。 


向 量 操 作 的 函数 原型 如 下 : 


ssize_t (*readv) {struct file *filp, const struct iovec *iov, 
unsigned long count, loff_t *ppos); 

ssize_t (*writev) (struct file *filp, const struct iovec *iov, 
unsigned long count, loff_t *ppos); 


其 中 ,filp 和 ppos 参 数 与 read 和 write 方 法 中 的 用 法 相同 。iovec 结构 定义 在 <linux/ 
uio.h> 中 ， 其 形式 如 下 : 
struct iovec 
{ 
void _ user *iov_base; 
_ _kernel_size_t iov_len; 
}; 
每 个 iovec 结 构 都 描述 了 一 个 用 于 传输 的 数据 块 一 一 这 个 数据 块 的 起 始 位 置 在 iov_base 
(在 用 户 空间 中 )， 长 度 为 iov_len 个 字 节 。 函 数 中 的 count 参数 指明 要 操作 多 少 个 
iovec 结 构 。 这 些 结构 由 应 用 程序 创建 , 而 内 核 在 调用 驱动 程序 之 前 会 把 它们 拷贝 到 内 
核 空 间 。 


向 量化 操作 最 简单 的 实现 ,可 能 就 是 只 传递 每 个 iovec 结 构 的 地 址 和 长 度 给 驱动 程序 的 
read 或 write 函数 。 不 过 ,正确 而 有 效率 的 操作 经 常 需要 驱动 程序 做 一 些 更 为 巧妙 的 事 
情 。 例 如 ， 磁 带 驱 动 程序 的 writev 就 应 将 所 有 iovec 结构 的 内 容 作为 磁带 上 的 单个 记 
录 写 人 。 


但 是 ， 很 多 驱动 程序 并 不 期 望 通过 自己 实现 这 些 方法 来 获 益 。 所 以 ，scul 忽略 了 它们 。 
内 核 将 会 通过 read 和 write 来 模拟 它们 ， 而 最 终结 果 仍 然 如 此 。 
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试 试 新 设备 

一 旦 准备 好 了 刚才 讲述 的 四 个 方法 ,就 可 以 编译 和 测试 驱动 程序 了 , 它 保留 写 入 的 数据 ， 
直至 用 新 数据 牙 盖 它 们 。 这 个 设备 有 点 像 长 度 只 受 物理 RAM 容 量 限制 的 数据 缓冲 区 .可 
以 试 试用 cp、dd 或 者 输入 /输出 重 定向 等 命令 来 测试 这 个 驱动 程序 。 


依据 写 人 scul! 的 数据 量 ， 用 free 命令 可 以 看 到 空闲 内 存 的 缩减 和 扩 增 。 


为 了 进一步 证 实 每 次 是 否 读 写 一 个 量子 ， 可 以 在 驱动 程序 的 适当 位 置 加 入 printk， 从 而 
可 了 解 到 程序 读 / 写 大 数据 块 时 会 发 生 什么 事情 。 此 外 ， 还 可 以 用 工具 strace 来 监视 应 
用 程序 调用 的 系统 调用 以 及 它们 的 返回 值 。 跟 踪 cp 或 1s -! > /dev/scull0 会 显示 出 量子 
化 的 读 写 过 程 。 第 四 章 将 会 详细 介绍 监视 (或 跟踪 ) 技术 。 


本 章 介绍 了 下 列 符号 和 头 文件 . file_operations 结 构 和 file 结 构 的 字段 清单 并 没有 
在 这 里 给 出 。 


#include <linux/types.h> 
dev_t 
dev_t 是 内 核 中 用 来 表示 设备 编号 的 数据 类 型 。 


int MAJOR(dev _t dev); 
int MINOR(dev_t dev); 
这 两 个 宏 从 设备 编号 中 抽取 出 主 /次 设备 号 。 
dev_t MKDEV (unsigned int major, unsigned int minor); 
这 个 宏 由 主 / 次 设备 号 构造 一 个 dev_t 数据 项 。 
#include <linux/fs.h> 
“文件 系统 ” 头 文件 ， 它 是 编写 设备 驱动 程序 必需 的 头 文件 ,其 中 声明 了 许多 重要 
的 函数 和 数据 结构 。 


int register chrdev_region(dev_t first, unsigned int count, char *name) 
int alloc_chrdev_region(dev_t *dev, unsigned int firstminor, unsigned 
int count, char *name) 
void unregister_chrdev_region(dev_t first, unsigned int count); 
提供 给 驱动 程序 用 来 分 配 和 释放 设备 编号 范围 的 函数 .在 期 望 的 主 设备 号 预先 知道 
的 情况 下 ， 应 调用 register_chrdev_region; 而 对 动态 分 配 ， 使 用 alioc_chrdev_ 


region, 
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int register_chrdev(unsigned int major, const char *name, struct 
file_operations *fops); 

老 的 (2.6 之 前 的 ) 字符 设备 注册 例 程 。2.6 内 核 也 提供 了 仿效 该 例 程 的 函数 , 但 是 
新 代码 不 应 该 再 使 用 该 函数 。 如 果 主 设备 号 不 是 0， 则 不 加 修改 地 使 用 ; 否则 ， 系 
统 将 为 该 设备 动态 地 分 配 编号 。 

int unregister_chrdev{(unsigned int major, const char *name); 
用 于 注销 由 register_chrdev 函数 注册 的 驱动 程序 。major 和 name 字符 串 必 须 包 
含 与 注册 该 驱动 程序 时 使 用 的 相同 的 值 。 


struct file_operations; 

struct file; 

struct inode; 
大 多 数 设 备 驱 动 程序 都 会 用 到 的 三 个 重要 数据 结构 。file_operations 结 构 保 存 
了 字符 驱动 程序 的 方法 ; struct file 表 示 一 个 打开 的 文件 , 而 struct inode 
表示 一 个 磁盘 上 的 文件 。 


#include <linux/cdev.h> 
struct cdev *cdev_alloc (void); 
void cdev _init(struct cdev *dev, struct file_operations *fops); 
int cdev_add(struct cdev *dev, dev_t num, unsigned int count); 
void cdqev_del(struct cdev *dev); 
用 来 管理 cdev 结构 的 函数 ， 内 核 中 使 用 该 结构 表示 字符 设备 。 
#include <linux/kernel.h> 
container_of {pointer, type, field); 


一 个 方便 使 用 的 宏 ， 它 可 用 于 从 包含 在 某 个 结构 中 的 指针 获得 结构 本 身 的 指针 。 


#include <asm/uaccess.h> 


该 头 文件 声明 了 在 内 核 代 码 和 用 户 空间 之 间 移 动 数 据 的 函数 。 


unsigned long copy_from_user (void *to, const void *from, unsigned 
long count); 
unsigned long copy. to_user (void *to, const void *from, unsigned long count); 
在 用 户 空间 和 内 核 空间 之 间 拷 贝 数据 。 
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内 核 编 程 有 其 自身 独特 的 调试 难题 。 由 于 内 核 是 一 个 不 与 特定 进程 相关 的 功能 集合 , 所 
以 内 核 代码 无 法 轻易 地 放 在 调试 器 中 执行 ,而 且 也 很 难 跟踪 。 同样， 要 想 重 现 内核 代 码 
中 的 错误 也 是 相当 困难 的 , 因为 这 种 错误 可 能 导致 整个 系统 崩溃 , 这 样 也 就 破坏 了 可 以 
用 来 跟踪 它们 的 现场 。 


本 章 将 介绍 在 这 种 令 人 痛苦 的 环境 下 监视 内 核 代 码 并 跟踪 错误 的 技术 。 


内 核 中 的 调试 支持 


在 第 二 章 ， 我 们 建议 读者 构造 并 安装 自己 的 内 核 ， 而 不 是 运行 发 行 版 自 带 的 原 有 内 核 。 
运行 自己 内 核 的 一 个 最 重要 的 原因 之 一 是 因为 内 核 开 发 者 已 经 在 内 核 中 建立 了 多 项 用 于 
调试 的 功能 。 但 这 些 功能 会 造成 额外 的 输出 , 并 导致 性 能 下 降 , 因此 发 行 版 厂商 通常 会 
枝 止 发 行 版 内 核 中 的 这 些 功 能 。 但 是 作为 一 名 内 核 开发 者 ， 调 试 需求 具有 更 高 优先 级 ， 
从 而 应 该 乐意 接受 因为 额外 的 调试 支持 而 导致 的 (最 小 ) 系统 负载 。 


这 里 , 我 们 列 出 了 用 于 内 核 开发 的 几 个 配置 选项 。 除 特别 指出 外 , 所 有 这 些 选 项 均 出 现 
在 内 核 配置 工具 的 “kernel hacking” 菜 单 中 。 注 意 ， 并 非 所 有 体系 架构 都 支持 其 中 的 
某 些 选项 。 
CONFIG_DEBUG_KERNEL 
该 选项 仅仅 使 得 其 他 的 调试 选项 可 用 。 我 们 应 该 打开 该 选项 ,但 它 本 身 不 会 打开 所 
有 的 调试 功能 。 
CONFIG_DEBUG_SLAB 
这 是 一 个 非常 重要 的 选项 , 它 打开 内 核 内 存 分 配 函 数 中 的 多 个 类 型 的 检查 ; 打开 该 
检查 后 ,就 可 以 检测 许多 内 存 溢出 及 忘记 初始 化 的 错误 。 在 将 已 分 配 内 存 返回 给 调 
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用 者 之 前 , 内 核 将 把 其 中 的 每 个 字 节 设置 为 0xa5，, 而 在 释放 后 将 其 设置 为 0x6b。 
如 果 读 者 在 自己 驱动 程序 的 输出 中 , 或 者 在 cops 信息 中 看 到 上 上述“ 毒剂 ” 字符 , 则 
可 以 轻松 判断 问题 所 在 .在 打开 该 调试 选项 后 , 内 核 还 会 在 每 个 已 分 配 内 存 对 象 的 
前 面 和 后 面 放置 一 些 特殊 的 防护 值 ; 这 样 , 当 这 些 防 护 值 发 生变 化 时 , 内 核 就 可 以 
知道 有 些 代码 超出 了 内 存 的 正常 访问 范围 ， 并 “大 声 抱怨 " 。 同 时 ， 该 选项 还 会 检 
查 更 多 隐藏 的 错误 。 
CONFIG. DEBUG_PAGEALLOC 
在 释放 时 , 全 部 内 存 页 从 内 核 地 址 空间 中 移出 。 该 选项 将 大 大 降低 运行 速度 , 但 可 
以 快速 定位 特定 的 内 存 损坏 错误 的 所 在 位 置 。 
CONFIG_DEBUG_SPINLOCK 
打开 该 选项 , 内核 将 捕获 对 未 初始 化 自 旋 锁 的 操作 , 也 会 捕获 诸如 两 次 解 开 同一 锁 
的 操作 等 其 他 错误 。 
CONFIG_DEBUG_SPINLOCK_SDEEP 
该 选项 将 检查 拥有 自 旋 锁 时 的 休 眼 企图 。 实际 上 ， 如 果 调 用 可 能 引起 休 卢 的 函数 ， 
这 个 选项 也 会 生效 ， 即 使 该 函数 可 能 不 会 导致 真正 的 休眠 。 
CONFIG_INIT_DPEBUG 
标记 为 __init (或 者 __initqdata) 的 符号 将 会 在 系统 初始 化 或 者 模块 装载 之 后 
被 丢弃 。 该 选项 可 用 来 检查 初始 化 完成 之 后 对 用 于 初始 化 的 内 存 空 间 的 访问 企图 。 
CONFIG_DEBUG_INFO 
该 选项 将 使 内 核 的 构造 包含 完整 的 调试 信息 。 如 果 读 者 打算 利用 gdb 调 试 内 核 , 将 
需要 这 些 信 息 。 如 果 计 划 使 用 gdb， 还 应 该 打开 CONFIG_FRAME_POINTER 选项 。 


CONFIG_MAGIC_SYSRQ 
打开 “SysRq 魔法 (magic SysRq)” 按 键 。 我 们 将 在 本 章 后 面 的 “系统 挂 起 ”一 
节 中 讲述 该 按键 。 

CONFIG_DEBUG_STACKOVERFLOW 

CONFIG_DEBUG_STACK_USAGE 
这 些 选项 可 帮助 跟踪 内 核 栈 的 溢出 问题 . 栈 溢出 的 确切 信号 是 不 包含 任何 合理 的 反 
向 跟踪 信息 的 oops 清单 。 第 一 个 选项 将 在 内 核 中 增加 明确 的 溢出 检查 ; 而 第 二 个 
选项 将 让 内 核 监 视 栈 的 使 用 ， 并 通过 SysRq 按键 输出 一 些 统计 信息 。 

CONFIG_KALLSYMS 
该 选项 出 现在 “General setup/Standard features (一 般 设 置 /标准 功 能 )” 菜 单 中 ， 
将 在 内 核 中 包含 符号 信息 ; 该 选项 默认 是 打开 的 。 该 符号 信息 用 于 调试 上 下 文 ; 没 
有 此 符号 ，oops 清单 只 能 给 出 十 六 进 制 的 内 核 反 向 跟踪 信息 ， 这 通常 没有 多 少 用 
处 。 
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CONFIG_IKCONFIG 

CONFIG_IKCONFIG_PROC 
这 些 选项 出 现在 “General setup (一 般 设置 )” 菜 单 中 ,会 让 完整 的 内 核 配 置 状 态 
包含 到 内 核 中 , 并 可 通过 /proc 访问 。 大 多 数 内 核 开 发 者 清楚 地 知道 自己 所 使 用 的 
配置 ， 因 此 并 不 需要 这 两 个 选项 (会 使 得 内 核 变 大 )。 然 而 ， 如 果 读 者 要 调试 的 内 
核 是 由 其 他 人 建立 的 ， 则 上 述 选 项 会 比较 有 用 。 

CONFIG_ACPI_DEBUG 
该 选项 出 现在 “Power management/ACPI (电源 管理 /ACPI)” 菜 单 中 。 该 选项 将 
打开 ACPI (Advanced Configuration and Power Interface, 高 级 配置 和 电源 接口 ) 
中 的 详细 调试 信息 。 如 果 怀 疑 自 己 所 遇 到 的 问题 和 ACPI 相关 ， 则 可 使 用 该 选项 。 

CONFIG_DEBUG_DRIVER 
在 “Device drivers (设备 驱动 程序 )” 菜 单 中 。 该 选项 打开 驱动 程序 核心 中 的 调试 
信息 , 它 可 以 帮助 跟踪 底层 支持 代码 中 的 问题 。 本 书 第 十 四 章 将 阐述 驱动 程序 核心 
相关 的 内 容 。 

CONFIG_SCSI_CONSTRNTS 
该 选项 出 现在 “Device drivers/SCSI device support (设备 驱动 程序 /SCSI 设 备 支 
持 )” 菜 单 中 ， 它 将 打开 详细 的 SCSI 错误 消息 。 如 果 读 者 要 编写 SCSI 驱动 程序 ， 
则 可 使 用 该 选项 。 

CONFIG_INPUT_EVBUG 
该 选项 可 在 “Device drivers/Input device support (设备 驱动 程序 /输入 设备 支持 )” 
中 找到 ， 它 会 打开 对 输入 事件 的 详细 记录 。 如 果 读 者 要 针对 输入 设备 编写 驱动 程 
序 , 则 可 使 用 该 选项 .注意 该 选项 会 导致 的 安全 问题 : 它 会 记录 你 键入 的 任何 东西 ， 
包括 密码 。 

CONFIG_ PROFILING 
该 选项 可 在 “Profiling support (剖析 支持 )” 菜 单 中 找到 。 剖析 通常 用 于 系统 性 能 
的 调节 ， 但 对 跟踪 内 核 挂 起 及 相关 问题 也 会 有 帮助 。 


在 我 们 讲解 不 同 的 内 核 问 题 跟 踪 方法 时 ,将 再 次 遇 到 上 述 选项 。 在 此 之 前 ， 先 描述 一 下 
经 典 的 调试 技术 : print 语句 。 


通过 打印 调试 
最 普通 的 调试 技术 就 是 监视 ， 即 在 应 用 程序 编程 中 ,在 一 些 适当 的 地 点 调用 prin#f 显 示 
监视 信息 。 调 试 内 核 代码 的 时 候 ， 可 以 用 prinik 来 完成 相同 的 工作 。 
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printk 


在 前 面 的 章节 中 ， 我 们 只 是 简单 假设 Printk 工作 起 来 和 printf 很 类 似 。 接 下 来 将 介绍 它 
们 之 间 的 一 些 不 同 点 。 


差别 之 一 就 是 , 通过 附加 不 同日 志 级 别 (loglevel), 或 者 说 消息 优先 级 ,可 让 printk 根 
据 这 些 级 别 所 表示 的 严重 程度 对 消息 进行 分 类 ,我 们 通常 采用 宏 来 指示 日 志 级 别 ,例如 ， 
KERN_INFO， 我 们 在 前 面 已 经 看 到 它 被 添加 在 一 些 打 印 语句 的 前 面 ， 它 就 是 一 个 可 以 
使 用 的 消息 日 志 级 别 。 表示 日 志 级 别 的 宏 会 展开 为 一 个 字符 串 , 在 编译 时 由 预 处 理 器 将 
它 和 消息 文本 拼接 在 一 起 ; 这 也 就 是 为 什么 下 面 的 例子 中 优先 级 和 格式 字 串 间 设 有 逗号 
的 原因 。 下 面 有 两 个 printk 的 例子 ， 一 个 是 调试 信息 ， 一 个 是 临界 信息 : 

printk (KERN_DEBUG “Here I am: %s:%i\n", _ _FILE_ _，_ _LINE_ _); 

printk (KERN_CRIT "I'm trashed; giving up on %p\n", ptr); 
在 头 文件 <linux/kernel.h> 中 定义 了 八 种 可 用 的 日 志 级 别 字符 串 ,下面 以 严重 程度 的 降序 
来 列 出 这 些 级 别 : 


KERN_EMERG 
用 于 紧急 事件 消息 ， 它 们 一 般 是 系统 崩溃 之 前 提示 的 消息 。 
KERN_ALERT 
用 于 需要 立即 采取 动作 的 情况 。 
KERN_CRIT 
临界 状态 ， 通 常 涉及 严重 的 硬件 或 软件 操作 失败 。 
KERN_ERR 
用 于 报告 错误 状态 。 设备 驱动 程序 会 经 常 使 用 KERN_ERR 来 报告 来 自 硬件 的 问题 。 
KERN_WARNING . 
对 可 能 出 现 问 题 的 情况 进行 敬告， 但 这 类 情况 通常 不 会 对 系统 造成 严重 问题 。 
KERN_NOTICE 
有 必要 进行 提示 的 正常 情形 。 许 多 与 安全 相关 的 状况 用 这 个 级 别 进行 汇报 。 
KERN_INFO 
提示 性 信息 。 很 多 驱动 程序 在 启动 的 时 候 以 这 个 级 别 来 打印 出 它们 找到 的 硬件 信 
息 。 
KERN_DEBUG 
用 于 调试 信息 。 


50 第 四 章 





每 个 字符 串 (以 宏 的 形式 展开 ) 表示 一 个 尖 括 号 中 的 整数 。 整 数值 的 范围 0~ 7, 数值 越 
小 ， 优 先 级 就 越 高 。 


未 指定 优先 级 的 printk 语 句 采用 的 默认 级 别 是 DEFAULT_MESSAGE_LOGLEVEL, 这 个 宏 在 
kerneliprintk.c 中 被 指定 为 一 个 整数 。 在 2.6.10 内核 中 , DEFAULT_MESSAGE_LOGLEVEL 
就 是 KERN_WARNING， 但 以 前 的 版 本 取 过 不 同 的 值 。 


根据 日 志 级 别 , 内 核 可 能 会 把 消息 打印 到 当前 控制 台 上 , 这 个 控制 台 可 以 是 一 个 字符 模 
式 的 终端 、 一 个 串口 打印 机 或 是 一 个 并 口 打 印 机 。 当 优先 级 小 于 console_loglevel 这 
个 整数 变量 的 值 , 消息 才能 显示 出 来 , 而 且 每 次 输出 一 行 (如 果 不 以 newline 字 符 结尾 ， 
则 不 会 输出 )。 如 果 系统 同时 运行 了 kiogd 和 syslogd，、 则 无 论 console_loglevel 为 何 
值 , 内 核 消 息 都 将 追加 到 /var/iog/messages 中 (否则 按照 syslogd 的 配置 进行 处 理 )。 如 
果 kiogd 没 有 运行 , 这 些 消 息 就 不 会 传递 到 用 户 空 间 , 这 种 情况 下 , 只 能 查看 /proc/kmsg 
文件 {使 用 dmesg 命令 可 以 轻松 做 到 )。 如 果 使 用 kiogd， 则 应 该 了 解 它 不 会 保存 连续 相 
同 的 信息 行 ; 它 只 会 保存 连续 相同 的 第 一 行 ， 并 在 最 后 打印 这 一 行 的 重复 次 数 。 


变量 console_loglevel 的 初始 值 是 DEFAULT_CONSOLE_LOGLEVEL, 而 且 还 可 以 通 
过 sys_sysiog 系统 调用 进行 修改 。 调 用 kiogd 时 可 以 指定 -c 开关 项 来 修改 这 个 变量 ， 
kiogd 的 手册 页 对 此 有 详细 说 明 。 注意, 要 修改 其 当前 值 ， 必 须 先 杀 掉 kiogd， 然后 再 用 
新 的 -c 选项 重新 启动 它 。 此 外 ， 还 可 以 编写 程序 来 改变 控制 台 的 日 志 级 别 。 读 者 可 以 
在 O'Reilly 的 FTP 站 点 提供 的 源 文件 misc-progsisetlevel.c 里 找到 这 样 的 一 段 程序 。 新 
优先 级 被 指定 为 一 个 1 ~ 8 之 间 的 整数 值 。 如 果 值 被 设 为 1 ， 则 只 有 级 别 为 0 
(KERN_EMERG) 的 消息 才能 到 达 控 制 台 ; 如 果 被 设 为 8， 则 包括 调试 信息 在 内 的 所 有 
消息 都 能 显示 出 来 。 


我 们 也 可 以 通过 对 文本 文件 /proc/sys/kernel/printk 的 访问 来 读 取 和 修改 控制 台 的 日 志 级 
别 。 这 个 文件 包含 了 4 个 整数 值 , 分 别 是 : 当前 的 日 志 级 别 、 示 明确 指定 日 志 级 别 时 的 
默认 消息 级 别 、 最 小 允许 的 日 志 级 别 以 及 引导 时 的 默认 日 志 级 别 。 向 该 文件 中 写 人 单个 
整数 值 , 将 会 把 当前 日 志 级 别 修改 为 这 个 值 。 例如 , 可 以 简单 地 输入 下 面 的 命令 使 所 有 
的 内 核 消 息 显示 到 控制 台 上 : 


# acho 8 > /proc/sys/kernel/printk 


现在 读者 应 该 清楚 为 什么 在 hello.c 例 子 中 使 用 了 KERN_ALERT 标 记 , 因为 使 用 这 个 标 
记 将 确保 所 有 消息 都 能 够 显示 在 控制 台 上 。 


重 定向 控制 台 消 息 
对 于 控制 台 日 志 策略 ，Linux 允许 有 某 些 灵活 性 : 内 核 可 以 将 消息 发 送 到 一 个 指定 的 虚 
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拟 控制 台 (假如 控制 台 是 文本 屏幕 的 话 )。 默认 情况 下 ,“ 控 制 台 ”就 是 当前 的 虚拟 终端 。 
可 以 在 任何 一 个 控制 台 设 备 上 调用 ioct1 (TIOCLINUX) 来 指定 接收 消息 的 其 他 虚拟 终端 。 
下 面 的 setconsole 程序 ， 可 选择 专门 用 来 接收 内 核 消息 的 控制 台 。 这 个 程序 必须 由 超级 
用 户 运 行 ,在 misc-progs 目录 里 可 以 找到 它 。 


下 面 是 该 程序 的 完整 清单 。 调 用 该 程序 时 , 请 附加 一 个 参数 指定 要 接收 消息 的 控制 台 编 


二 


To 


int main(int argc, char **argv) 
{ 
char bytes[2] = {11,0}; /* 11 是 TIOCLINUX 的 命令 编号 */ 


if (argc= =2) bytes[1]】 = atoi(argv[1]); /* 选 定 的 控制 台 */ 
else { 
fprintf (stderr, "%s: need a single arg\n",argv[0]); exit(1); 
J 
if (ioctl (STDIN, FILENO, TIOCLINUX, bytes)<0) { /* 使 用 stain */ 
fprintf (stderr,"%s: ioctl{stdin, TIOCLINUX): %s\n", 
argv[0], strerror (errno) ) ; 
exit(1); 
} 
exit (0); 
} 


setconsole 使 用 了 特殊 的 iocti 命 令 ; TIOCLINUX， 这 个 命令 可 以 完成 一 些 特定 的 Linux 
功能 。 使 用 TIOCLINUX 时 , 需要 传 给 它 一 个 指向 字 节 数组 的 指针 参数 。 数 组 的 第 一 个 字 
节 指 定 所 请 求 子 命令 的 编号 ， 随 后 的 字 节 所 具有 的 功能 则 由 这 个 子 命令 来 决定 。 在 
setconsole 中 ,使 用 的 子 命令 是 11， 后面 那 个 字 节 (保存 在 bytes [1] 中 ) 则 用 来 标识 
虚拟 控制 台 。 关 于 TIOCLINUX 的 完整 描述 可 以 在 内 核 源 代码 中 的 drivers/char/tty_io.c 文 
件 中 得 到 。 


消息 如 何 被 记录 


prin 太 函数 将 消息 写 到 一 个 长 度 为 __LOG_BUF_LEN 字 节 的 循环 缓冲 区 中 (我 们 可 在 配 
置 内 核 时 为 “_LoG_BUF_LEN 指 定 4KB ~ 1 MB 之 间 的 值 )。 然 后 ， 该 函数 会 唤醒 任何 
正在 等 待 消息 的 进程 , 即 那 些 睡 眠 在 sysiog 系 统 调用 上 的 进程 ,或 者 正在 读 取 /proc/kmsg 
的 进程 。 这 两 个 访问 日 志 引 擎 的 接口 几乎 是 等 价 的 , 不 过 请 注意 , 对 /proc/kmsg 进行 读 
操作 时 , 日 志 缓 剖 区 中 被 读 取 的 数据 就 不 再 保留 , 而 sysiog 系统 调用 却 能 通过 选项 返回 
日 志 数 据 并 保留 这 些 数 据 , 以 便 其 他 进程 也 能 使 用 。 一 般 而 言 , 读 /proc 文件 要 容易 些 ， 
这 也 是 klogd 的 默认 方法 ,dmesg 命令 可 在 不 刷新 缓冲 区 的 情况 下 获得 缓冲 区 的 内 容 ; 实 
际 上 ， 该 命令 将 缓冲 区 的 整个 内 容 返 回 到 stdoxr， 而 无 论 该 缓冲 区 是 否 已 经 被 读 取 。 


如 果 在 停止 klogd 之 后 手工 读 取 内 核 消息 ,读者 会 发 现 /proc/kmsg 文件 很 像 一 个 FIFO， 
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读 取 进程 会 阻塞 在 该 文件 上 ,以便 等 待 更 多 的 数据 。 显然 如果 已 经 有 kiogd 或 其 他 进 
程 正在 读 取 同 一 数据 ， 就 不 能 采用 这 种 方法 读 取 消息 ， 因 为 这 会 与 这 些 进程 发 生 竞 争 。 


如 果 循 环 缓冲 区 填 满 了 ，printk 就 绕 回 缓 冲 区 的 开始 处 填写 新 的 数据 ,这 将 覆盖 最 陈旧 
的 数据 ， 于 是 日 志 进 程 就 会 丢失 最 早 的 数据 。 但 与 使 用 循环 缓冲 区 所 带 来 的 好 处 相 比 ， 
这 个 问题 可 以 忽略 不 计 。 例如 , 循环 缓冲 区 可 以 使 系统 在 没有 记录 进程 的 情况 下 照样 运 
行 ， 同时 覆盖 那些 不 会 再 有 人 去 读 的 旧 数 据 ， 从 而 使 内 存 的 浪费 减 到 最 少 。Linux 消息 
处 理 方法 的 另 一 个 特点 是 ， 可 以 在 任何 地 方 调 用 Prin 帮 ， 甚 至 在 中 断 处 理 函 数 里 也 可 以 
调用 ， 而 且 对 数据 量 的 大 小 没有 限制 。 而 这 个 方法 的 唯一 缺点 就 是 可 能 丢失 某 些 数据 。 


klogd 运 行 时 会 读 取 内 核 消 息 并 将 它们 分 发 到 sysiogd,sysilogd 随 后 查看 /etc/sysiog.conf， 
找 出 处 理 这 些 数据 的 方法 。sysiogd 根 据 功 能 和 优先 级 对 消息 进行 区 分 ; 这 两 者 的 可 选 值 
均 定 义 在 <sys/syslog.h> 中。 内 核 消 息 由 LOG_KERN 工具 记录 ， 并 以 与 printk 中 对 应 的 
优先 级 记录 {例如 ，printk 中 使 用 的 KERN_ERR 对 应 于 sysiogd 中 的 LOG_ERR)。 如 果 
没有 运行 logd， 数 据 将 保留 在 循环 缓冲 区 中 ,直到 某 个 进程 读 取 它们 或 缓冲 区 溢出 为 
止 。 


如 果 想 避免 因为 来 自 驱 动 程序 的 大 量 监视 信息 而 扰乱 系统 日 志 ， 则 可 以 为 kiogd 指定 

-f (file) 选 项 ， 指 示 kiogd 将 消息 保存 到 某 个 特定 的 文件 ， 或 者 修改 /etc/sysiog.conf 来 
满足 自己 的 需求 。 另 一 种 可 能 的 办 法 是 采取 下 面 的 强制 措施 : 杀 掉 Kogd， 而 将 消息 详 
细 地 打印 到 空闲 的 虚拟 终端 上 ( 注 1), 或 者 在 一 个 未 使 用 的 xterm 上 执行 命令 cat/proc/ 
kmsg 来 显示 消息 。 


开启 及 关闭 消息 


在 驱动 程序 开发 的 初期 阶段 ，printk 对 于 调试 和 测试 新 代码 是 相当 有 帮助 的 。 不 过 , 在 
正式 发 布 驱动 程序 时 ,就 得 删除 这 些 打印 语句 ,或 至 少 禁用 它们 。 不 幸 的 是 ,你 可 能 会 
发 现 这 样 的 情况 , 即 在 删除 了 那些 已 被 认为 不 再 需要 的 提示 消息 后 , 又 需要 实现 一 个 新 
的 功能 (或 是 有 人 发 现 了 一 个 缺陷 ) ， 这 时 ， 又 希望 至 少 重新 开启 一 部 分 消息 。 这 两 个 
问题 可 以 通过 几 个 办 法 来 解决 , 以 便 全 局 地 开启 或 禁止 调试 消息 , 并 能 对 个 别 消息 进行 
开关 控制 。 


下 面 给 出 了 一 个 调用 prin 比 的 编码 方法 ， 它 可 个 别 或 全 局 地 开关 Prin 尼 语句 ; 这 个 技巧 
是 定义 一 个 宏 ， 在 需要 时 ， 这 个 宏 展 开 为 一 个 printk (或 printf) 调用 : 


。 ”可 以 通过 在 宏 名 字 中 删 碱 或 增加 一 个 字母 来 启用 或 禁用 每 一 条 打印 语句 。 











注 1: 例如 ， 使 用 setlevel8;setconsole 10 来 设置 终 祷 10， 以 显示 消息 。 
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。 ”在 编译 前 修改 CFLAGS 变量 ， 则 可 以 一 次 禁用 所 有 消息 。 


。 ”同样 的 打印 语句 可 以 在 内 核 代码 中 也 可 以 在 用 户 级 代码 使 用 , 因此 ,关于 这 些 额 外 
的 调试 信息 ， 蝶 动 程序 和 测试 程序 可 以 用 同样 的 方法 来 进行 管理 。 


下 面 这 些 来 自 头 文件 scull.h 的 代码 片段 就 实现 了 这 些 功 能 : 


#undef PDEBUG /* 取消 对 PDEBUG 的 定义 ,以 防 重复 定义 */ 
#ifdef SCULL_DEBUG 
# ifdef _ _KERNEL_ _ 

/* 表明 打开 调试 ,. 并 处 于 内 核 空间 */ 、 


# define PDEBUG(fmt, args...) printk( KERN_DEBUG "scull: " frmt, ### 
args) 
# else 
/* 这 表明 处 于 用 户 空间 */ 
非 define PDEBUG (fmt, args...) fprintf (stderr, fmt, ## args) 
# endif 
#else 
# define PDEBUG(fmt，arges...) /* 调试 被 关闭 : 不 作 任 何事 情 */ 
#endif 


#undef PDEBUGG 
#define PDEBUGG {fmt，args...) /* 不 作 任 何事 情 ， 仅 仅 是 个 占 位 符 */ 


是 否定 义 符 号 PDEBUG 取决 于 是 否定 义 了 SCULL_DEBUG, 并 且 , 它 能 根据 代码 所 运行 
的 环境 来 选择 合适 的 方式 显示 信息 : 在 内 核 态 时 , 它 使 用 内 核 调用 printk; 在 用 户 空间 ， 
则 使 用 libc 调 用 fprintf, 并 输出 到 标准 错误 设备 。 另 一 方面 , 符号 PDEBUGG 则 什么 也 不 
做 ; 它 可 以 将 打印 语句 注释 掉 ， 而 不 必 把 它们 完全 删除 。 


为 了 进一步 简化 这 个 过 程 ， 可 以 在 makefile 中 添加 下 面 儿 行 : 


# Comment/uncomment the following line to disable/enable debugging 
DEBUG = y 


# Add your debugging flag {or not) to CFLAGS 
ifeq ($ (DEBUG),Yy) 
DEBFLAGS = -0 -g -DSCULL_DEBUG # "-0O" is needed to expand inlines 
else 
DEBFLAGS = -02 
endif 


CFLAGS += $ (DEBFLAGS) 
本 节 所 给 出 的 宏 依 赖 于 gcc 对 ANSIC 预 处 理 器 的 扩展 , 这 种 扩展 支持 了 带 可 变数 目 参数 


的 宏 。 对 gcc 的 这 种 依赖 并 不 是 什么 问题 ， 因 为 内 核对 gcc 特性 的 依赖 更 强 。 此 外 ， 
Makefile 依赖 于 GNU 的 make 版 本 ; 基于 同样 的 道理 ， 这 种 依赖 也 不 是 什么 问题 。 


如 果 读 者 熟悉 C 预 处 理 器 ， 可 以 对 上 面 的 定义 进行 扩展 ， 实 现 “调试 级 别 ” 的 概念 ， 这 
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需要 定义 一 组 不 同 的 级 别 ， 并 为 每 个 级 别 赋 一 个 整数 〈 或 位 掩 码 ) ， 用 以 决定 各 个 级 别 
消息 的 详细 程度 。 


但 是 , 每 一 个 驱动 程序 都 会 有 自身 的 功能 和 监视 需求 。 良好 的 编程 技术 在 于 选择 灵活 性 
和 效率 的 最 佳 折衷 点 , 我们 无 法 预知 对 读者 来 说 最 合适 的 点 在 哪里 。 记 住 ， 预 处 理 条 件 
语句 (以 及 代码 中 的 常量 表达 式 ) 只 在 编译 时 执行 , 所 以 要 再 次 打开 或 关闭 消息 就 必须 
重新 编译 。 另 一 种 方法 就 是 使 用 C 条 件 语句 ， 它 在 运行 时 执行 , 因此 可 以 在 程序 运行 期 
间 打 开 或 关闭 消息 。 这 是 个 很 好 的 功能 ,但 每 次 代码 执行 时 系统 都 要 进行 额外 的 处 理 ， 
甚至 在 禁用 消息 后 仍然 会 影响 性 能 ， 而 有 时 这 种 性 能 损失 是 无 法 接受 的 。 


在 很 多 情况 下 , 本 节 提 到 的 这 些 宏 都 已 被 证 实 是 很 有 用 的 , 仅 有 的 缺点 是 每 次 开启 和 关 
闭 消 息 显示 时 都 要 重新 编译 模块 。 


速度 限制 


有 时 读者 会 一 不 小 心 利用 prin 永 产生 了 上 千 条 消息 , 从 而 让 日 志 信 息 充满 控制 台 , 更 可 
能 使 系统 日 志文 件 溢出 。 如 果 使 用 某 个 慢 速 控制 台 设备 (比如 串口 )， 过 高 的 消息 输出 
速度 会 导致 系统 变 慢 ,甚至 使 系统 无 法 正常 响应 。 当 控制 台 被 无 休止 的 数据 填充 时 ， 其 
实 很 难 发 现 系统 到 底 出 现 了 什么 问题 .因此 ,我们 应 该 非常 小 心地 管理 自己 的 打印 信息 ， 
尤其 在 驱动 程序 的 正式 版 本 中 , 或 者 完成 初始 化 之 后 。 通常 ,正式 代码 不 应 该 在 正常 的 
操作 下 打印 任何 信息 ， 而 打印 出 的 信息 应 作为 对 需要 引起 注意 的 异常 情形 的 提示 。 


另 一 方面 , 在 我 们 驱动 的 设备 停止 工作 时 , 也 许 希望 产生 一 条 日 志 信 息 。 但 我 们 要 小 心 ， 
不 能 夸张 处 理 这 种 情况 , 某 些 不 明智 的 进程 会 在 遇 到 失败 时 不 停 重 试 , 每 秒 可 能 产生 成 
千 上 万 次 重 试 如 果 我 们 的 驱动 程序 每 次 都 打印 一 条 “该 设备 停止 工作 ”这 样 的 消息 ， 
则 将 制造 巨 量 输出 ， 并 可 能 在 控制 台 设 备 较 慢 时 独占 CPU 一 一 我们 根本 无 法 中 断 控制 
台 ， 尤其 在 串口 或 者 行 式 打印 机 上 。 


在 许多 情况 下 ， 最 好 的 办 法 是 设置 一 个 标志 ， 表 示 “ 我 已 经 就 此 声明 过 了 ,” 并 在 该 标 
志 被 设置 时 不 再 打印 任何 信息 。 但 在 某 些 情况 下 ,仍然 有 理由 偶尔 发 出 一 条 “该 设备 仍 
停止 工作 ”这 样 的 消息 。 内 核 为 这 种 情况 提供 了 一 个 有 用 的 函数 : 


int printk_ratelimit (void); 
在 打印 一 条 可 能 被 重复 的 信息 之 前 ,应 调用 上 面 这 个 函数 。 如 果 该 函数 返回 一 个 非 零 值 ， 
则 可 以 继续 并 打印 我 们 的 消息 ， 否 则 就 应 该 跳 过 。 这 样 ， 典 型 的 调用 应 如 下 所 示 : 


if {printk_ratelimit()) 
printk (KERN_NOTICE "The printer is still on fire\n"}); 
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printk_ratelimit 通 过 跟踪 发 送 到 控制 台 的 消息 数量 工作 。 如 果 输 出 的 速度 超过 一 个 阀 值 ， 
Printk_ratelimit 将 返回 零 ， 从 而 避免 发 送 重 复 消 息 。 


我 们 可 通过 修改 /proc/sys/kerneliprintk_ratelimit (在 重新 打开 消息 之 前 应 该 等 待 的 秒 
数 ) 以 及 /procisysikerneliprintk_ratelimit_burst (在 进行 速度 限制 之 前 可 以 接受 的 消息 
数 ) 来 定制 printk_ratelimit 的 行为 。 


打印 设备 编号 

有 时 当 从 一 个 驱动 程序 打印 消息 时 , 我 们 会 希望 打印 与 硬件 关联 的 设备 编号 。 打印 设备 
的 主 设备 号 和 次 设备 号 并 不 是 很 难 的 事情 , 但 出 于 一 致 性 考虑 , 内 核 提 供 了 一 对 辅助 宏 
(在 <iinux/kdevy_1.h> 中 定义 ): 


int print_Adev_ti{(char *buffer, dev_t dev); 
char *format_dev tl(char *buffer, dev_t dev); 


这 两 个 宏 均 将 设备 编号 打印 到 给 定 的 缓冲 区 , 其 唯一 的 区 别 是 , print_dev_t 返 回 的 是 打 
印 的 字符 数 , 而 format_dev_! 返 回 的 是 缓冲 区 , 这 样 , 它 的 返回 值 可 直接 作为 调用 printk 
时 的 参数 使 用 。 当 然 ,， 我们 不 能 忘记 只 有 在 结尾 处 存在 newline (新 行 ) 字符 时 ,printk 
才 将 消息 刷新 到 控制 台 。 传人 上 述 宏 的 缓冲 区 必须 足够 保存 一 个 设备 编号 。 因 为 在 未 来 
的 内 核 版 本 中 , 使 用 64 位 设备 编号 的 可 能 性 非常 明显 , 因此 , 该 缓冲 区 的 大 小 应 该 至 少 
有 20 字 节 长 。 


通过 查询 调试 
上 一 节 讲 述 了 prin 化 如 何 工作 以 及 我 们 应 该 如 何 使 用 它 、 但 还 没 谈 到 它 的 缺点 。 


由 于 syslogd 会 一 直 保 持 对 其 输出 文件 的 同步 刷新 , 即使 我 们 可 以 降低 console_loglevel 
以 避免 装载 控制 台 设 备 ， 但 大 量 使 用 prinik 仍然 会 显著 降低 系统 性 能 。 从 syslogd 的 角 
度 来 看 , 这 样 的 处 理 是 正确 的 : 它 试图 把 每 件 事情 都 记录 到 磁盘 上 , 以 在 系统 万 一 滑 涡 
时 最 后 的 记录 信息 能 反应 贿 溃 前 的 状况 。 然而, 因 处 理 调试 信息 而 使 系统 性 能 减 慢 是 我 
们 所 不 希望 的 。 这 个 问题 可 以 通过 在 /etc/syslogd.conf 中 日 志文 件 的 名 字 前 面 加 一 个 减 
号 前 组 来 解决 ( 注 2)。 修改 配置 文件 带 来 的 问题 在 于 , 在 完成 调试 之 后 这 些 改动 将 依旧 
保留 ; 即使 在 一 般 的 系统 操作 中 ， 当 希望 尽快 把 信息 刷新 到 磁盘 时 也 是 如 此 。 如 果 不 愿 





注 2: 这 个 减 号 是 个 有 魔力 的 标记 , 可 以 避免 syslogd 在 每 次 出 现 新 信息 时 都 去 刷新 磁盘 文件 ， 
详细 文档 请 见 syslog.conf(5)， 这 个 手册 页 很 值得 一 读 。 
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作 这 种 持久 性 修改 的 话 ， 另 一 个 选择 是 运行 一 个 非 kiogd 程 序 (如 前 面 介绍 的 cat/proc/ 
kmsg)， 但 这 样 并 不 能 为 通常 的 系统 操作 提供 一 个 合适 的 环境 。 


多 数 情况 中 , 获取 相关 信息 的 最 好 方法 是 在 需要 的 时 候 才 去 查询 系统 信息 , 而 不 是 持续 
不 断 地 产生 数据 。 实 际 上 , 每 个 Unix 系统 都 提供 了 很 多 工具 用 于 获取 系统 信息 ， 如 Ps、 


netstat、vmstat、 等 等 。 


驱动 程序 开发 人 员 可 以 用 如 下 方法 对 系统 进行 查询 : 在 /proc 文件 系统 中 创建 文件 、 使 
用 驱动 程序 的 ioct! 方 法 ,以 及 通过 sysfs 导出 属性 等 。sysfs 的 使 用 需要 驱动 程序 模型 的 
一 些 背 景 知 识 ， 因 此 我 们 将 在 第 十 四 章 中 进行 详细 描述 。 


使 用 /proc 文件 系统 


/proc 文件 系统 是 一 种 特殊 的 、 由 软件 创建 的 文件 系统 ， 内 核 使 用 它 向 外 界 导 出 信息 。 
/proc 下 面 的 每 个 文件 都 绑 定 于 一 个 内 核 函 数 , 用 户 读 取 其 中 的 文件 时 , 该 函数 动态 地 生 
成 文件 的 “内 容 ”。 我 们 已 经 见 到 过 这 类 文件 的 一 些 输出 情况 ， 例 如 ，/Proc/moduies 列 
出 的 是 当前 载 人 模块 的 列表 。 


在 Linux 系统 中 对 /proc 的 使 用 很 频繁 。 现 代 Linux 发 行 版 中 的 很 多 工具 都 是 通过 /proc 
来 获取 它们 需要 的 信息 , 例如 ps、rop 和 uptime。 有 些 设备 驱动 程序 也 通过 /proc 导 出 信 
息 ， 而 我 们 自己 的 驱动 程序 当然 也 可 以 这 么 做 。 因 为 /proc 文件 系统 是 动态 的 ， 所 以 四 
动 程序 模块 可 以 在 任何 时 候 添 加 或 删除 其 中 的 人 口 项 。 


具有 完整 特征 的 /proc 入 口 项 可 以 相当 复杂 ; 在 所 有 的 这 些 特征 当中 ， 有 一 点 要 指出 的 
是 , 这 些 /proc 文件 不 仅 可 以 用 于 读 出 数据 ,也 可 以 用 于 写 人 数据 。 不过, 大 多 数 时 候 ， 
/proc 人 口 项 是 只 读 文件 。 本 节 将 只 涉及 简单 的 只 读 情形 。 如 果 有 兴趣 实现 更 为 复杂 的 事 
情 ， 读 者 可 以 先 在 这 里 了 解 基础 知识 ， 然 后 参考 内 核 源 代 码 来 建立 完整 的 认识 。 


但 在 继续 之 前 ， 首 先 要 指出 我 们 并 不 鼓励 在 /proc 下 添加 文件 。 相 比 最 初 的 用 途 (用 于 
提供 系统 中 进程 的 信息 )，/proc 文件 系统 已 经 不 受 控制 地 增加 了 大 量 信息 。 因 此 ,我们 
建议 新 的 代码 通过 sysfs 来 向 外 界 导出 信息 。 先 前 提 到 ， 对 sysfs 的 利用 需要 对 Linux 设 
备 模型 的 理解 ， 因 此 我 们 将 在 第 十 四 章 讲述 。 而 目前 , /proc 目录 下 的 文件 更 容易 创建 ， 
并 且 完 全 符合 调试 用 途 ， 因 此 我 们 在 本 节 讲 述 这 一 方法 。 


在 /proc 中 实现 文件 
所 有 使 用 /proc 的 模块 必须 包含 <linux/proc_fs.h>， 并 通过 这 个 头 文件 来 定义 正确 的 函 
数 。 
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为 创建 一 个 只 读 的 /proc 文件 ， 驱 动 程序 必须 实现 一 个 函数 ， 用 于 在 读 取 文件 时 生成 数 
据 。 当 某 个 进程 读 取 这 个 文件 时 (使 用 read 系统 调用 ), 读 取 请 求 会 通过 这 个 函数 发 送 
到 驱动 程序 模块 。 我 们 把 注册 接口 放 到 本 节 后 面 ， 先 直接 讲述 这 个 函数 。 


在 某 个 进程 读 取 我 们 的 /proc 文件 时 ， 内 核 会 分 配 一 个 内 存 页 ( 即 PAGE_SIZE 字 节 的 
内 存 块 )， 驱 动 程序 可 以 将 数据 通过 这 个 内 存 页 返回 到 用 户 空间 。 该 缓冲 区 会 传人 我 们 
定义 的 函数 ， 而 该 函数 称 为 read_proc 方法 : 
int (*read_proc) (char *page, char **start, off t+t offset, int count, 
int *eof, void *data); 

参数 表 中 的 page 指 针 指 向 用 来 写 人 数据 的 缓冲 区 ; 函数 应 使 用 start 返 回 实际 的 数据 
写 到 内 存 页 的 哪个 位 置 (对 此 后 面 还 将 进一步 谈 到 ); offset 和 count 这 两 个 参数 与 
read 方 法 相同 。eof 参数 指向 一 个 穆 型 数 , 当 没有 数据 可 返回 时 ,驱动 程序 必须 设置 这 
个 参数 ; data 参数 是 提供 给 驱动 程序 的 专用 数据 指针 ， 可 用 于 内 部 记录 。 


该 函数 必须 返回 存放 到 内 存 页 缓 促 区 的 字 节 数 ,这 一 点 与 read 函 数 对 其 他 类 型 文件 的 处 
理 相同 。 另外 还 有 *eof 和 *start 这 两 个 输出 值 eof 只 是 一 个 简单 的 标志 , 而 start 
的 用 法 就 有 点 复杂 了 ， 它 可 以 帮助 实现 大 (大 于 一 个 内 存 页 ) 的 /proc 文件 。 


start 参 数 的 用 法 看 起 来 有 些 特别 , 它 用 来 指示 要 返回 给 用 户 的 数据 保存 在 内 存 页 的 什 
么 位 置 .在 我 们 的 read_proc 方 法 被 调用 时 ,*start 的 初始 值 为 NULL。 如 果 保 留 *start 
为 空 ， 内 核 将 假定 数据 保存 在 内 存 页 偏 移 量 0 的 地 方 ， 也 就 是 说 ， 内 核 将 对 read_proc 
作 如 下 简单 假定 : 该 函数 将 虚拟 文件 的 整个 内 容 放 到 了 内 存 页 , 并 同时 忽略 of fset 参 
数 。 相 反 ， 如 果 我 们 将 *start 设置 为 非 空 值 ， 内 核 将 认为 由 *start 指向 的 数据 是 
offset 指定 的 偏 移 量 处 的 数据 ， 可 直接 返回 给 用 户 。 通 常 ， 返 回 少量 数据 的 简单 
read_proc 方法 可 忽略 start 参数 ， 复 杂 的 read_proc 方法 会 将 * start 设置 为 页 面 ， 
并 将 所 请 求 偏 移 量 处 的 数据 放 到 内 存 页 中 。 


长 久 以 来 ， 关 于 /proc 文件 还 有 另 一 个 主要 问题 ， 这 也 是 start 意图 解决 的 一 个 问题 。 
有 时 , 在 连续 的 read 调 用 之 间 , 内 核 数 据 结构 的 ASCII 表 述 会 发 生变 化 , 以 至 于 读 取 进 
程 发 现 前 后 两 次 调用 所 获得 的 数据 不 一 致 。 如 果 把 *start 设 为 一 个 小 的 整数 值 , 那么 
调用 程序 可 以 利用 它 来 增加 filp->f_pos 的 值 , 而 不 依赖 于 返回 的 数据 量 , 因此 也 就 
使 £_pos 成 为 read_proc 过程 的 一 个 内 部 记录 值 。 例如， 如 果 read_proc 函数 从 一 个 大 
的 结构 数组 返回 数据 ， 并 且 这 些 结构 的 前 五 个 已 经 在 第 一 次 调用 中 返回 ， 那 么 可 将 
* Start 设 置 为 5。 下 次 调用 中 这 个 值 将 被 作为 偏 移 量 ; 驱动 程序 也 就 知道 应 该 从 数组 的 
第 六 个 结构 开始 返回 数据 。 这 种 方法 被 它 的 作者 称 作 “hack”, 可 以 在 /fs/proc/generic.c 
中 看 到 。 
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注意 ,还 有 一 个 更 好 的 方法 可 实现 /proc 文件 ， 该 方法 称 为 seq_file，, 我 们 稍 后 将 讲 
述 这 个 方法 。 现 在 我 们 来 看 一 个 例子 ， 下 面 是 scul! 设备 read_proc 函数 的 简单 实现 : 


int scull_read procmem(char *buf, char **start, off _ t+ offset, 
int count, int *eof, void *data} 
{ 
int 1, 3 len = 0; 


int limit = count - 80; /* 不 要 打印 超过 这 个 值 的 数据 */ 


for {i = 0; i < scull_nr_devs && len <= limit; i++) { 
struct scull dev *d = &scull_devices[il]; 
struct scull_qset *qs = d->data; 
if (down_interruptible(&d->sem)) 
return -ERESTARTSYS; 
len += sprintf (buf+len,"\nDevice %i: qset %i, q %i, sz %li\n", 
i, d->qset, d->quantum, Gd->size); 
for (; qs && len <= limit; qs = qs->next) { /* scan the list */ 
len += Sprintf(buf + len，" item at %p, qset at %p\n", 
qs, ds->data); 
if (qs->data && !qs->next) /* 只 转 储 最 后 一 项 */ 
for (j = 0; j < d~>qset; j++) { 
if (qs->data[j]}} 
len += sprintf (buf + len, 
上 % 4i: %8p\n", 
j, qs->data[j]); 
} 
} 
up{&scull_devices{[il] .sem); 
} 
*eof = 1; 
return len; 
】 


这 是 一 个 相当 典型 的 read_proc 实现 。 它 假定 决 不 会 有 这 样 的 需求 ， 即 生成 多 于 一 页 的 
数据 ， 因 此 忽略 了 start 和 offset 值 。 但 是 ， 小 心 不 要 超出 缓冲 区 ， 以 防 万 一 。 


老 的 /proc 接口 
如 果 读 者 通读 内 核 源 代码 ， 会 发 现 某 些 /proc 文件 通过 下 面 的 老 接口 实现 : 


int (*get_info) (char *page, char **start, off_t offset, int count); 


其 中 所 有 的 参数 都 和 read_proc 方 法 一 样 ， 只 是 没有 eof 和 data 参数 。 访 接口 仍然 被 
支持 ， 但 可 能 在 将 来 被 取消 因此， 新 的 代码 应 该 使 用 read_proc 接口 。 


创建 自己 的 /proc 文 件 
一 旦 定义 好 了 一 个 read_proc 国 数 , 就 需要 把 它 与 一 个 /proc 人 口 项 连接 起 来 。 这 通过 调 
用 create_proc_read_entry 实现 : 
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struct proc_dir_entry *Create_Proc_read_entry(const char *name, 
mode_t mode, struct proc_dir_entry *base, 
read proc_t *read proc, void *datra); 
其 中 , name 是 要 创建 的 文件 名 称 ; mode 是 该 文件 的 保护 掩 码 (可 传人 0 表示 系统 默认 
值 ); base 指定 该 文件 所 在 的 目录 (如 果 base 为 NULL, 则 该 文件 将 创建 在 /proc 的 根 
目录 ); read_proc 是 实现 该 文件 的 read_proc 函数 ; 内 核 会 忽略 data 参数 ,但 是 会 将 
该 参数 传递 给 read_proc。 下 面 是 scull 调用 该 函数 创建 /proc 文件 的 代码 : 
create_proc_read_entry("scullmem", 0 /* default mode */, 


NULL /* parent dir */, scull_read _ procmem, 
NULL /* client data */); 


上 述 代 码 在 /proc 目 录 下 创建 了 一 个 称 为 sculImem 的 文件 , 并 默认 具有 全 局 可 读 权 限 设 
置 。 


目录 项 指针 可 用 来 在 /proc 下 创建 完整 的 目录 层次 结构 .不 过 请 注意 ,将 人 口 项 置 于 /proc 
的 子 目 录 中 有 更 为 简单 的 方法 ， 即 把 目录 名 称 作为 人 口 项 名 称 的 一 部 分 一 一 只 要 目录 
本 身 已 经 存在 。 例如， 有 个 经 常 被 忽略 的 约定 ， 要 求 把 设备 驱动 程序 对 应 的 /proc 人 口 
项 转移 到 子 目 录 driver/ 中 。scull 可 以 简单 地 指定 它 的 入 口 项 名 称 为 driver/sculimem, 从 
而 把 它 的 /proc 文件 放 到 这 个 子 目 录 中 。 


当然 ,在 印 载 模块 时 ，/proc 中 的 入 口 项 也 应 被 删除 。remove_proc_entry 就 是 用 来 撤销 
create_proc_read_entry 所 做 工作 的 函数 : 


remove_proc_entry("scullmem", NULL /* parent dir */)} 


如 果 删 除 和 人口 项 失败 ， 将 导致 未 预期 的 调用 ， 如 果 模 块 已 被 卸载 ， 内 核 会 崩溃 。 


在 使 用 /proc 文件 时 ， 读 者 必须 谨 记 这 种 实现 的 几 个 不 足 之 处 一 一 因此 我 们 不 鼓励 使 
用 /proc 文件 。 


最 重要 的 问题 和 /proc 项 的 删除 有 关 。 删 除 调用 可 能 在 文件 正在 被 使 用 时 发 生 , 因 为 /proc 
入 口 项 不 存在 关联 的 所 有 者 ， 因 此 对 这 些 文件 的 使 用 并 不 会 作用 到 模块 的 引用 计数 上 。 
在 移 除 模块 时 ， 执 行 sleep 100 < /procimyfile 命令 就 可 以 触发 这 个 问题 。 


另外 一 个 问题 是 关于 使 用 同一 名 字 注 册 两 个 人 口 项 。 内 核 信任 驱动 程序 , 因此 不 会 检查 
某 个 名 称 是 否 已 经 被 注册 , 因此 如 果 不 小 心 , 将 可 能 导致 两 个 或 多 个 人 口 项 具有 相同 的 
名 字 。 这 种 “ 重 名 ”问题 经 常会 出 现在 “教室 ”中 。 由 于 入 口 项 无 法 区 分 ， 因 此 不 论 是 
访问 这 些 入 口 项 的 时 候 还 是 调用 remove_proc_entry 的 时 候 ， 都 会 出 现 问题 。 
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seq_file 接口 


上 面 提 到 ，/proc 下 大 文件 的 实现 有 些 笨拙 。 随 着 时 间 的 流逝 ， 当 越 来 越 多 的 开发 者 使 
用 /proc 文件 输出 信息 时 ，/proc 的 实现 接口 变 得 越 来 越 “ 声 名 狼藉 "。 为 了 让 内 核 开发 
工作 更 加 容易 ,通过 对 /proc 代码 的 整理 而 增加 了 seq_file 接 口 。 这 一 接口 为 大 的 内 
核 虚拟 文件 提供 了 一 组 简单 的 函数 。 


seq_file 接 口 假定 我 们 正在 创建 的 虚拟 文件 要 顺序 遍历 一 个 项 目 序 列 , 而 这 些 项 目 正 
是 必须 要 返回 给 用 户 空间 的 。 为 使 用 seq_file， 我 们 必须 创建 一 个 简单 的 “迭代 器 
(iterator)” 对 象 , 该 对 象 用 来 表示 项 目 序列 中 的 位 置 , 每 前 进一步 , 该 对 象 输出 序列 中 
的 一 个 项 目 。 这 听 起 来 有 些 复杂 , 但 实际 上 整个 过 程 相当 简单 。 下 面 我 们 将 使 用 这 个 方 
法 针对 scul! 驱动 程序 创建 一 个 /proc 文件 。 


显然 , 第 一 步 是 包含 <linux/segq_file.h> 头 文件 , 然后 必须 建立 四 个 达 代 器 对 象 , 分别 为 


start, next、 stop 和 Snow。 


start 方法 始终 会 首先 调用 ， 该 函数 的 原型 如 下 : 


void *start (struct seq file *sfile, loff_t *pos); 


这 里 的 sfile 参数 儿 平 可 在 大 多 数 情况 下 忽略 。pos 是 一 个 整数 的 位 置 值 ， 表 明 读 取 
的 位 置 。 对 位 置 的 解释 完全 取决 于 迭代 器 的 实现 本 身 , 并 不 一 定 非得 是 结果 文件 的 字 节 
位 置 。 因为 seq_file 的 实现 通常 都 要 遍历 一 个 项 目 序列 , 因此 位 置 通常 被 解释 为 指向 
序列 中 下 一 个 项 目的 游标 (cursor)。scul! 驱 动 程序 将 每 个 设备 当 作 序 列 中 的 一 个 项 目 ， 
这 样 , 传人 的 pos 就 可 以 简单 作为 scull_qdevices 数 组 的 索引 。 于 是 ,scul! 的 start 方 
法 可 如 下 编写 : 

static void *scull_seq start(struct seq file *s, loff_t *pos) 

. if (*pos >= scull_nr_devs} 

return NULL;  ”/* 无 数据 可 返回 */ 
return scull_devices + *pos; 
} 


如 果 返 回 值 非 NULL ， 则 迭代 器 的 实现 可 将 其 作为 私有 值 使 用 。 
next 函数 应 将 迭代 器 移动 到 下 一 个 位 置 ， 并 在 序列 中 没有 其 他 项 目 时 返回 NULL。 该 方 
法 的 原型 是 : 

void *next(struct seq _ file *sfile, void *v, loff_t *pos); 


其 中 , Vv 是 先前 对 start 或 者 next 的 调用 所 返回 的 先 代 器 ,pos 是 文件 的 当前 位 置 。next 
方法 应 增加 pos 指向 的 值 , 这 依赖 于 迭代 器 的 工作 方式 , 在 某 些 情况 下 , 我 们 也 许 要 让 
pos 的 增加 值 大 于 1。scull 的 next 方法 如 下 实现 : 
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static void *scull_seq next (struct seq_file *s, void *v, loff_t *pos) 
{ 
1*DOS) ++} 
if {*pos >= scull_nr_devs) 
return NULL; 
return scull_devices + *pos; 
} 


当 内 核 使 用 近代 器 之 后 ， 会 调用 stop 方法 通知 我 们 进行 清除 工作 : 


void stop(struct seq file *sfile, void *v); 
scull 的 实现 不 需要 完成 清除 工作 ， 因 此 它 的 stop 方法 为 空 。 


值得 注意 的 是 ， 在 设计 上 ，seq_file 的 代码 不 会 在 start 和 stop 的 调用 之 闻 执 行 其 他 
的 非 原子 操作 。 我 们 可 以 确信 ，start 被 调用 之 后 马上 就 会 有 对 stop 的 调用 。 因 此 ， 在 
start 方 法 中 获取 信和 号 量 或 者 自 旋 锁 是 安全 的 。 只 要 其 他 seq_file 方 法 是 原子 的 , 则 整 
个 调用 过 程 也 是 原子 的 (如果 对 这 段 描述 理解 起 来 有 些 困难 , 读者 可 在 阅读 下 一 章 之 后 
再 回来 阅读 )。 

在 上 述 调用 之 间 ， 内 核 会 调用 show 方法 来 将 实际 的 数据 输出 到 用 户 空间 。 该 方法 的 原 
型 如 下 : 


int show(struct seq file *sfile, void *v)}; 


该 方法 应 该 为 迭代 器 v 所 指向 的 项 目 建立 输出 。 但 是 ， 它 不 能 使 用 Prin 帮 函数 ， 而 要 使 
用 针对 seq_file 输出 的 一 组 特殊 函数 : 


int seqL_printf(Struct SeqL_file *sfile, const Char *fmt, ...); 
这 是 seq_file 实 现 的 printf 等 价 函 数 ; 它 需 要 通常 的 格式 字符 串 以 及 额外 的 值 参 
数 。 同 时 ， 我 们 还 要 将 show 函数 传人 的 seq_file 结构 传递 给 这 个 函数 。 如 果 
seq_printf 返 回 了 一 个 非 零 值 ， 则 意味 着 缓 促 区 已 满 , 而 输出 被 丢弃 。 大 部 分 实现 
都 会 忽略 这 个 返回 值 。 

int seq putc{(struct seq file *sfile, char c); 

int seq puts{struct seqg _ file *sfile, const char *s); 


这 两 个 函数 是 用 户 空 间 常 用 的 purtc 和 puts 函数 的 等 价 函 数 。 


int seq_escapelstruct seq file *m, const char *s, const char *esc); 
这 个 函数 等 价 于 seqg_puts, 只 是 车 s 中 的 某 个 字符 也 存在 于 esc 中, 则 该 字符 会 以 
八进制 形式 打印 。 传 递 给 esc 参数 的 常见 值 是 "\t\n\\"， 它 可 以 避免 要 输出 的 
空白 字符 弄 乱 屏幕 或 者 迷惑 shel] 脚本 。 
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int SeGqL_path (struct secL_file *sfile, struct vfsmount *m, struct dentry 
*dentry, char *esc); 


这 个 函数 可 用 于 输出 与 某 个 目录 项 关联 的 文件 名 , 对 设备 驱动 程序 来 讲 , 它 没有 多 
少 价值 ， 这 里 包含 该 函数 只 是 出 于 完整 性 考虑 。 


在 我 们 的 例子 中 ，scul! 中 使 用 的 show' 方 法 代码 如 下 所 示 : 


static int scull_seg_showl(struct seq_file *s, void *v) 


{ 


struct scull dev *dev = (struct scull_dev *) v; 
struct scull qset *d; 
int 


if {down_interruptible (&dev->sem)) 
return -ERESTARTSYS; 
seq_ printf{s, "\nDevice %i: qset %i, q %i, sz %1li\n", 
(int) (dev - scull_devices), dev->qgqset, 
dev->quantum, dev->size); 
for (d = dev->data; d; Q = d->next) { /* Scan the list */ 
seq printf(s, " item at %p, qset at %p\n’, d, d->data}; 
if (d->data && !1d->next) /* 只 转 储 最 后 一 项 */ 
for (i = 0; i < GQev->GSet i++) { 
if (d->data[i}) 
seq printf(s, " $%% 4i: %8p\n", 
i, d->data[il}); 
} 
} 
up (&dev->sem); 
return 0; 


} 


这 里 , 我 们 最 终 解释 了 自己 的 “迭代 器 ” 值 , 它 实际 就 是 一 个 指向 scull_dev 结 构 的 指 
针 。 


现在 , 我们 定义 了 完整 的 迭代 器 操作 函数 ，scul! 必须 将 这 些 函 数 打包 并 和 /proc 中 的 某 
个 文件 连接 起 来 。 首 先 要 填充 一 个 seq_operations 结构 : 


static struct seq_operations scull_seq ops = { 


.Start = scull_seq_start, 
.next = scull_seq next, 
,Stop = scull_seq_stop, 
,Show = scull_seq show 


}; 


有 了 这 个 结构 , 我 们 必须 创建 一 个 内 核能 够 理解 的 文件 实现 。 在 使 用 seq_file 时 ,我 
们 不 使 用 先前 描述 过 的 read_proc 方 法 ,而 最 好 在 略 低 的 层次 上 连接 到 /proc。 也 就 是 说 ， 
我 们 将 创建 一 个 file_operations 结 构 ( 即 用 于 字符 驱动 程序 的 相同 结构 ), 这 个 结构 
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将 实现 内 核 在 该 /proc 文件 上 进行 读 取 和 定位 时 所 需 的 所 有 操作 。 幸 运 的 是 ， 这 一 过 程 
非常 直接 。 首 先 创建 一 个 open 方法 ， 该 方法 将 文件 连接 到 seq_file 操作 : 

static int scul1l_proc_open(Struct inode *inode, struct file *file) 

{ 

return seq_openl(file, &scull seq _ops); 

} 
对 seq_open 的 调用 将 £ile 结 构 和 我 们 上 面 定义 的 顺序 操作 连接 在 一 起 。 open 是 唯一 一 
个 必须 由 我 们 自己 实现 的 文件 操作 , 因此 , 我 们 的 file_operations 结 构 可 如 下 定义 : 


static struct file_operations scull proc ops = { 


.Owner = THIS_MODULE， 
.Open = scull_proc_open, 
.read = seq read, 
,llseek = seq lseek, 
.release = seq release 


}; 


这 里 ， 我 们 指定 了 我 们 自己 的 open 方 法， 但 对 其 他 的 fiie_operations 成 员 ， 我 们 使 用 
了 已 经 定义 好 的 seq_read、seq_lseek 和 seq_release 方法 。 


最 后 ， 我 们 建立 实际 的 /proc 文件 : 


entry = create_proc_entry("scullseq", 0, NULL); 
if (lentry) 
entry->proc_fops = &scull proc_ops; 
这 次 ,我们 没有 使 用 create_proc_read_entry 函 数 ,而 是 使 用 了 低层 的 create_proc_entry， 
它 的 原型 定义 如 下 : 
struct proc_dir entry *create_proc_entry(const char *name, 
mode_t mode, 
struct proc_dir_entry *parent); 
该 函数 的 参数 和 create_proc_read_entry 等 价 , 分 别 是 文件 的 名 称 (name)、 访问 保护 掩 
码 (mode) 以 及 父 (parent) 目录 。 


利用 上 面 的 代码 ，scull 就 在 /proc 中 拥有 了 一 个 和 先前 版 本 类 似 的 文件 。 但 显然 ,这 个 
文件 要 更 加 灵活 一 些 , 不 管 输出 有 多 大 , 它 都 能 够 正确 处 理 文件 定位 , 并 且 相 关 代码 更 
加 容易 阅读 和 维护 。 如 果 读 者 的 /proc 文件 包含 有 大 量 的 输出 行 ， 则 我 们 建议 使 用 
seq_file 接 口 来 实现 该 文件 。 


ioct| 方法 
ioctl 是 作用 于 文件 描述 符 之 上 的 一 个 系统 调用 , 我 们 会 在 第 六 章 介绍 它 的 用 法 。iocr 接 
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收 一 个 “命令 ”号 以 及 另 一 个 (可 选 的 ) 参数 , 命令 号 用 以 标识 将 要 执行 的 命令 ,而 可 
选 参数 通常 是 个 指针 。 作为 替代 /proc 文 件 系统 的 方法 , 我 们 可 以 专 为 调试 设计 若干 ioct 
命令 。 这 些 命令 从 驱动 程序 复制 相关 的 数据 到 用 户 空间 , 然后 可 在 用 户 空间 中 检验 这 些 
数据 。 


使 用 ioct! 获取 信息 比 起 /proc 来 要 困难 一 些 ， 因 为 需要 另 一 个 程序 调用 ioctl 并 显示 结 
果 . 我 们 必须 编写 并 编译 这 个 程序 , 还 要 和 需要 测试 的 模块 保持 同步 。 但 从 另 一 方面 来 
说 ， 相 对 实现 /proc 文件 所 需 的 工作 ， 驱 动 程序 端的 编码 则 更 为 容易 些 。 


有 时 ioct1 是 获取 信息 的 最 好 方法 ,因为 它 比 起 读 /proc 要 快 得 多 。 如 果 在 数据 写 到 屏幕 
之 前 要 完成 某 些 处 理工 作 ， 那么 以 二 进 制 获取 数据 要 比 读 取 文本 文件 有 效 得 多 。 此 外 ， 
iocll 并 不 要 求 把 数据 分 割 成 不 超过 一 个 内 存 页 面 的 片断 。 


ioct1 方 法 的 另 一 个 有 意思 的 优点 是 , 甚至 在 调试 被 禁用 之 后 , 用 来 取得 信息 的 这 些 命令 
仍 可 以 保留 在 驱动 程序 中 。/proc 文 件 对 任何 查看 这 个 目录 的 人 都 是 可 见 的 (很 多 人 可 能 
会 纳闷 “这 些 奇怪 的 文件 是 用 来 做 什么 的 " )， 然而 与 /proc 文件 不 同 ， 未 公开 的 ioct! 命 
令 通常 都 不 会 被 注意 到 。 此 外 , 万 一 驱动 程序 有 什么 异常 , 这 些 命令 仍然 可 以 用 来 调试 。 
唯一 的 缺点 就 是 模块 会 稍微 大 一 些 。 


有 时 , 通过 监视 用 户 空间 中 应 用 程序 的 运行 情况 ,可 以 捕捉 到 一 些小 问题 。 监 视 程序 同 
样 也 有 助 于 确认 驱动 程序 工作 是 否 正常 。 例如， 查看 scul! 的 read 实现 如 何 响 应 不 同 数 
据 量 的 read 请 求 ， 就 可 以 判断 它 是 否 工作 正常 。 


有 许多 方法 可 用 来 监视 用 户 空间 程序 的 工作 情况 ， 比 如 用 调试 器 一 步 步 跟踪 它 的 函数 ， 
插入 打印 语句 , 或 者 在 strace 状态 下 运行 程序 等 等 。 在 检查 内 核 代码 时 ， 最 后 一 项 技术 
最 值得 关注 ， 我 们 将 在 此 对 它 进行 讨论 。 


strace 命令 是 一 个 功能 非常 强大 的 工具 , 它 可 以 显示 由 用 户 空间 程序 所 发 出 的 所 有 系统 
调用 。 它 不 仅 可 以 显示 调用 , 而 且 还 能 显示 调用 参数 以 及 用 符号 形式 表示 的 返回 值 。 当 
系统 调用 失败 时 , 错误 的 符号 值 ( 如 ENOMEM) 和 对 应 的 字符 串 ( 如 “out of memory， 
内 存 溢 出 ) 都 能 被 显示 出 来 。strace 有 许多 命令 行 选项 ,其 中 最 为 有 用 的 是 下 面 几 个 : 
-1, 该 选项 用 来 显示 调用 发 生 的 时 间 ; -T, 显示 调用 所 花费 的 时 间 ; -e, 限定 被 跟踪 的 调 
用 类 型 ; -o , 将 输出 重 定 向 到 一 个 文件 中 。 默 认 情况 下 ,strace 将 跟踪 信息 打印 到 stder 
EE 


strace 从 内 核 中 接收 信息 。 这 意味 着 一 个 程序 无 论 是 否 以 支持 调试 的 方式 编译 (用 gcc 
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的 -8 选项 ) 或 是 否 被 去 掉 了 符号 信息 , 都 可 以 被 跟踪 。 调试 器 可 以 连接 到 一 个 正在 运行 
的 进程 并 控制 该 进程 ， 而 strace 也 可 以 跟踪 一 个 正在 运行 的 进程 。 


跟踪 信息 通常 用 于 生成 错误 报告 , 然后 把 它们 发 送 给 应 用 程序 开发 人 员 . 但 是 它 对 内 核 
编程 人 员 来 说 也 同样 非常 有 用 .我 们 已 经 看 到 驱动 程序 代码 是 如 何 通 过 响应 系统 调用 而 
得 到 执行 的 ，strace 允许 我 们 检查 每 次 调用 中 输入 和 输出 数据 的 一 致 性 。 


例如 ， 下 面 给 出 了 sirace is /dev > /deviscull0 命令 的 最 后 几 行 输出 信息 : 


open{"/dev", O_RDONLY |O_NONBLOCK|O_LARGEFILE|O_DIRECTORY) = 3 
fstat64(3, {st_mode=S_IFDIR|0755, st_size=24576, ...})} = 0 
fcntl164(3, F_SETFD, FD_CLOEXEC) =0 

getdents64{3, /* 141 entries */, 4096) 4088 

aad 

getdents64(3, /* 0 entries */, 4096) 
close (3) 

[有 可 
fstat64(1，{st_mode=S_IFCHR|0664，st_rdev=makedev(254，0)，...}) = 0 
write(l1, "MAKEDEV\nadmmidi0\nadmmidil\nadmmid",..., 4096) = 4000 
write{l, "b\nptywc\nptywd\nptywe\nptywf\nptyx0\n"..., 96) = 96 
write(1l, "b\nptyxc\nptyxd\nptyxe\nptyxf \nptyy0\n"..., 4096) = 3904 
write(l1, “sl7\nvecsi8\nvesl9\nvcs2\nvecs20\nvcs21"..., 192) = 192 
write(1, "“\nvcs47\nvcs48\nvcs49\nves5\nves50\nve"..,., 673) = 673 
close(1) = 0 

eXit_group (0) = ? 


很 明显 ， 当 心 完成 对 目标 目录 的 检索 后 ,在 首次 对 write 的 调用 中 ， 它 试图 写 和 人 4KB 数 
据 。 很 奇怪 的 是 (对 于 1s 来 说 ), 实际 只 写 人 了 4000 个 字 节 ,接着 它 重 试 这 一 操作 。 然 
而 ， 我 们 知道 scul! 的 write 实现 每 次 最 多 只 写 和 一 个 量子 (scul! 中 设置 的 量子 大 小 为 
4000 个 字 节 )， 所 以 我 们 所 预期 的 就 是 上 述 的 部 分 写 人 。 经 过 几 个 步骤 之 后 ， 每 件 工作 
都 顺利 通过 ， 程 序 正常 退出 。 


下 面 是 另 一 个 例子 ， 让 我 们 来 对 scull 设备 进行 读 操作 (使 用 wc 命令): 


| | 

open(t" /dev/scu1l10"，0_RDONLY|O_LARGEFILE) = 3 

fstat64(3, {st_mode=S_IFCHR|0664, st_rdev=amakedev(254, 0}, ...}) = 0 
read(l3, "MAKEDEV\nadmmidi0\nadmmidil\nadmmid"..., 16384) = 4000 
read(3, "b\nptywc\nptywd\nptywe\nptywf\nptyxO0\n"..., 16384) = 4000 


0 
0 


read{3, "sl7\nvcsl8\nvcsl9\nvcs2\nves20\nvecs21"..., 16384) = 865 
read(3, "", 16384)} = 0 
fstat64(1，{fst_mode=S_IFCHR|10620，st_rdev=makedev{(136，1)，...}]) = 0 
write{1, "8865 /dev/scull0vn"，17) = 17 


close{3) =0 
exit. group(0} 开交 


正如 我 们 所 料 ，read 每 次 只 能 读 取 4000 个 字 节 ， 但 数据 总 量 与 前 面 例子 中 写 人 的 总 量 
是 相同 的 。 与 上 面 的 写 入 跟踪 相 比 ,请 注意 本 例 中 的 重 试 是 如 何 组 织 的 。 为 了 快速 读 取 
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数据 ，wc 已 被 优化 了 ,因而 它 绕 过 了 标准 库 , 试图 通过 一 次 系统 调用 读 取 更 多 的 数据 ， 
这 可 以 从 read 的 跟踪 行 中 看 到 : wc 每 次 均 试图 读 取 16KB 数据 。 


Linux 专家 可 以 在 strace 的 输出 中 发 现 很 多 有 用 信息 ， 但 如 果 觉 得 这 些 符号 过 于 拖累 的 
话 ， 则 可 以 仅 限于 监视 文件 方法 (open、read 等 ) 的 工作 过 程 。 


就 个 人 观点 而 言 ,笔者 发 现 strace 对 于 查找 系统 调用 运行 时 的 细微 错误 最 为 有 用 。 通常 
应 用 程序 或 演示 程序 中 的 perror 调 用 信息 在 用 于 调试 时 还 不 够 详细 , 而 strace 能 够 确切 
查 明 系统 调用 的 哪个 参数 引发 了 错误 ， 这 一 点 对 调试 是 大 有 帮助 的 。 


调试 系统 故障 


即使 采用 了 所 有 这 些 监 视 和 调试 技术 , 有 时 驱动 程序 中 依然 会 有 错误 , 这 样 的 驱动 程序 
在 执行 时 就 会 产生 系统 故障 。 在 出 现 这 种 情况 时 , 获取 尽 可 能 多 的 信息 对 解决 问题 是 至 
关 重要 的 。 


注意 ,“ 故 障 (fault)” 并 不 意味 着 “ 惊 妃 (panic)”。Linux 代码 非常 健壮 ， 可 以 很 好 地 
响应 大 部 分 错误 : 故障 通常 会 导致 当前 进程 崩溃 ,而 系统 仍 会 继续 运行 。 如 果 在 进程 上 
N 文 之 外 发 生 了 故障 , 或 是 系统 的 关键 部 分 被 损害 时 , 系统 才 有 可 能 panic。 但 如 果 问 题 
出 现在 驱动 程序 中 , 通常 只 会 导致 正在 使 用 驱动 程序 的 那个 进程 突然 终止 。 唯一 不 可 恢 
复 的 损失 就 是 ， 当 进程 被 终止 时 为 进程 上 下 文 分 配 的 一 些 内 存 可 能 会 丢失 ; 例如 ,驱动 
程序 通过 kmalioc 分 配 的 动态 链表 可 能 丢失 。 然 而 ， 由 于 内 核 在 进程 终止 时 会 对 已 打开 
的 设备 调用 进行 close 操作 ， 驱 动 程序 仍 可 以 释放 由 open 方法 分 配 的 资源 。 


尽管 oops 消 息 通常 并 不 会 导致 整个 系统 崩溃 ,但 我 们 发 现 遇 到 此 类 情况 时 还 是 要 重新 引 
导 系 统 。 一 个 有 缺陷 的 驱动 程序 可 能 导致 硬件 不 可 用 , 或 者 导致 内 核资 源 处 于 不 一 致 的 
状态 , 或 者 在 最 坏 的 情况 下 随机 破坏 内 核 内 存 。 通常 , 我们 可 以 在 看 到 oops 之 后 卸载 自 
己 有 缺陷 的 驱动 程序 , 然后 重 试 。 但 是 ,如 果 我 们 看 到 任何 说 明 系 统 整体 出 现 问题 的 信 
息 后 ， 最 好 的 办 法 就 是 立即 重新 引导 系统 。 


我 们 已 经 说 过 ， 当 内 核 行为 异常 时 , 会 在 控制 台 上 打印 出 提示 信息 。 下 一 节 将 说 明 如 何 
解码 并 使 用 这 些 消息 。 尽管 它们 对 于 初学 者 来 说 相当 隐 涩 难 懂 , 不 过 处 理 器 在 出 错时 转 
储 出 的 这 些 数据 包含 了 许多 值得 关注 的 信息 , 通过 它们 通常 足以 查 明 程序 错误 , 而 无 需 
额外 的 测试 。 


oops 消息 
大 部 分 错误 都 是 因为 对 NULL 指 针 取 值 或 因为 使 用 了 其 他 不 正确 的 指针 值 。 这 些 错误 通 
常会 导致 一 个 oops 消息 。 
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由 处 理 器 使 用 的 地 址 几乎 都 是 虚拟 地 址 , 这 些 地 址 (除了 内 存 管理 子 系统 本 身 所 使 用 的 
物理 内 存 之 外 ) 通过 一 个 复杂 的 被 称 为 “页 表 ” 的 结构 被 映射 为 物理 地 址 。 当 引用 一 个 
非法 指针 时 , 分 页 机 制 无 法 将 该 地 址 映射 到 物理 地 址 , 此 时 处 理 器 就 会 向 操作 系统 发 出 
一 个 “页 面 失效 (page fault)” 的 信号 。 如 果 地 址 非法 ， 内 核 就 无 法 “ 换 入 (page in)” 
缺失 页 面 ; 这 时 ， 如 果 处 理 器 恰好 处 于 超级 用 户 模式 ， 系 统 就 会 产生 一 个 oops。 


oops 显示 发 生 错误 时 处 理 器 的 状态 ， 比 如 CPU 寄存 器 的 内 容 以 及 其 他 看 上 去 无 法 理解 
的 信息 。 这 些 消息 由 失效 处 理 函 数 (arch/#/kerneltraps.c) 中 的 prin 帮 语句 产生 ， 就 像 
前 面 “printk” 一 节 所 介绍 的 那样 处 理 。 


让 我 们 看 看 oops 消息 的 例子 。 当 我 们 在 一 台 运 行 2.6 版 内 核 的 PC 机 上 使 用 一 个 NULL 指 
针 时 ， 就 会 导致 下 面 这 些 信 息 被 显示 出 来 。 这 里 最 为 相关 的 信息 就 是 指令 指针 (EIP)， 
即 出 错 指令 的 地 址 。 


Unable to handle kernel NULL pointer dereference at virtual address 00000000 

printing eip: 

d083a064 

Oops: 0002 [#1] 

SMP 

es 0 

EIP: 0060: [<d083a064>] Not tainted 

EFLAGS: 00010246 (2 .66) 

EIP is at faulty_write+0x4/0x10 [faulty] 

eax: 00000000 ebx: 00000000 ecx: 00000000 edx: 00000000 

esi: cf8b2460 edi: cf8b2480 ebp: 00000005 esp: Cc31lc5f74 

ds: 007b es: 007b ss: 0068 

Process bash {pid: 2086, threadinfo=c31c4000 task=cfa0a6c0) 

Stack: c0150558 cf8b2460 080e9408 00000005 cf8b2480 00000000 cf8b2460 cf8b2460 
fffffff7 080e9408 c3lc4000 c0150682 cf8b2460 080e9408 00000005 cf8b2480 
00000000 00000001 00000005 c0103f8f 00000001 080e9408 00000005 00000005 

Call Trace: 

[<c0150558>] vfs_write+0xb8/0x130 
[<c0150682>] sys_write+0x42/0x70 
[<c0103f8f>] syscall_call+0x7/0xb 


Code: 89 15 00 00 00 00 c3 90 8d 74 26 00 83 ec 0c b8 00 a6 83 d0 


这 个 消息 是 通过 对 faulty 模 块 的 一 个 设备 进行 写 操作 而 产生 的 ,faulty 模 块 专 为 演示 出 错 
而 编写 。faulty.c 中 write 方法 的 实现 很 简单 : 


ssize t faulty write (struct file *filp, const char _ user *buf, size.t count, 
loff tt. *pos) 
{ 
/* make a simple fault by dereferencing a NULL pointer */ 
(int *)On 0 
return 0; 


98 第 四 章 





正如 读者 所 见 , 我 们 在 这 里 引用 了 一 个 NULL 指 针 。 因为 0 决 不 会 是 个 合法 的 指针 值 , 所 
以 产生 了 错误 ， 内 核 进入 上 面 的 oops 消息 状态 。 这 个 调用 进程 接着 就 被 杀 掉 了 。 


在 faulty 模块 的 read 实现 中 ， 该 模块 还 展示 了 更 多 有 意思 的 错误 状态 : 


ssize_t faulty_readq(Struct file *filp, char _ _user *buf, 
Size_t count, loff_t *pos) 
人 
int ret; 
char stack_buf {4]; 


/* 试 着 产生 组 促 区 溢出 错误 */ 
memset (stack_buf, Oxff, 20); 
if (Count > 4) 

count = 4; /* 为 用 户 空间 复制 四 个 字 节 */ 
ret = copy_to_user{buf, stack_buf, count); 
if (!ret) 

return count; 
return ret; 


} 


该 方法 将 一 个 字符 串 复 制 到 一 个 局 部 变量 , 但 不 幸 的 是 , 字符 串 要 比 目 标 数组 长 。 这样 
就 会 在 该 函数 返回 时 因为 缓冲 区 溢出 而 导致 一 个 oops 的 产生 。 然 而, 由 于 return 指 令 
把 指令 指针 带 到 了 无 法 预期 的 地 方 , 所 以 这 种 错误 很 难 跟 踪 , 所 能 获得 的 仅 是 如 下 的 信 
息 : 


EIP， 0010: [<00000000>]】 

Unable to handle kernel paging request at virtual address ffffffff 

printing eip: 

下 于 起 二 上 于 于 下 

Oops: 0000 [#5] 

SMP 

CPU : 0 

EIP: 0060: [<ffffffff>] Not tainted 

EFLAGS: 00010296 {2.6.6} 

EIP is at Oxffffffff 

eax: 0000000c ebx: ffffffff ecx: 00000000 edx: bfffda7c 

esi: cf434f00 edi: ffffffff ebp: 00002000 esp: c27fff78 

ds: 007b es: 007b ss: 0068 

Process head (pid: 2331, threadinfo=c27fe000 task=c3226150) 

Stack: ffffffff bfffaa70 00002000 cf434f20 00000001 00000286 cf434f00 ££ffffff£7 
bfffda70 c27fe000 c0150612 cf434f00 bfffda70 00002000 cf434f20 00000000 
00000003 00002000 c0103f8f 00000003 bfffda70 00002000 00002000 bfffda70 

Call Trace: 

[<c0150612>] sys_read+0x42/0x70 
[<c0103f8f>] syscall_call+0x7/0xb 


Code: Bad EIP value. 


在 这 种 情况 下 , 我 们 只 能 看 到 调用 栈 的 部 分 信息 (无 法 看 到 vfs_read 和 faulty_read), 内 
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核 抱怨 说 遇 到 一 条 “错误 的 EIP 值 (bad EIP value)”。 这 一 抱怨 ,以 及 开头 处 列 出 的 明 
显 错误 的 地 址 (ffffffff) 均 说 明 内 核 栈 已 经 被 破坏 。 


通常 , 在 我 们 面 对 一 条 oops 时 , 首先 要 观察 的 是 发 生 的 问题 所 在 的 位 置 , 这 通常 可 通过 
调用 栈 信息 得 到 。 在 上 面 给 出 的 第 一 个 oops 中 ， 相 关 的 信息 是 : 


EIP is at faulty_write+0x4/0x10 [faulty] 


从 这 里 我 们 可 以 看 到 ,故障 所 在 的 函数 是 faulty_wrire， 该 函数 位 于 fauliy 模块 ( 列 在 中 
括号 内 )。 十 六 进 制 的 数据 表明 指令 指针 在 该 函数 的 4 字 节 处 ， 而 函数 本 身 是 10 (十 六 
进 制 ) 字 节 长 。 通 常 ， 这 些 信息 足以 让 我 们 看 到 问题 的 真正 所 在 。 


如 果 需 要 更 多 信息 , 调用 栈 可 以 告诉 我 们 系统 是 如 何 到 达 故 障 点 的 。 栈 本 身 以 十 六 进 制 
形式 打印 , 通过 一 些 工 作 , 我 们 可 通过 栈 清单 确定 局 部 变量 和 函数 参数 的 值 。 有 经 验 的 
内 核 开 发 人 员 通 过 此 类 模式 可 有 效 地 发 现 问题 所 在 。 例如, 如 果 我 们 观察 faulry_read 产 
生 的 oops 的 栈 清单 : 

Stack: ffffffff bfffda70 00002000 cf434f20 00000001 00000286 cf434f00 fffffff7 


bfffda70 c27fe000 c0150612 cf434f00 bfffda70 00002000 cf434£20 00000000 
00000003 00002000 c0103f8£ 00000003 bfffda70 00002000 00002000 bfffda70 


栈 顶 部 的 ffffffff 就 是 导致 故障 产生 的 字符 捉 的 一 部 分 。 在 x86 架 构 上 , 用 户 空间 的 
栈 默认 自 0xc0000000 向 下 。 因此, 很 容易 联想 到 0xbfffda70 可 能 是 用 户 空间 的 栈 地 
址 , 亦 即 传递 给 read 系 统 调用 的 缓冲 区 地 址 , 这 个 地 址 会 在 内 核 的 调用 链 上 重复 向 下 传 
递 。 在 x86 架构 上 (仍然 是 默认 情况 下 ) ， 内 核 空间 起 始 于 0xc0000000， 故 大 于 
0xc0000000 的 值 几乎 肯定 是 内 核 空间 的 地 址 ， 等 等 。 


最 后 , 在 观察 oops 清单 时 还 要 记得 观察 本 章 前 面 讨论 过 的 “slab 毒剂 ” 值 。 例 如 ， 如 果 
我 们 获得 的 内 核 oops 中 包含 有 0xa5a5a5a5 这 样 的 地 址 ， 那 几乎 可 以 肯定 的 是 ， 我 们 
在 某 处 忘记 了 初始 化 动态 分 配 到 的 内 存 。 


需要 注意 的 是 ， 只 有 在 构造 内 核 时 打开 了 CONFIG_KALLSYMS 选项 ,我们 才能 看 到 符号 
化 的 调用 栈 (就 像 上 面 列 出 的 那样 ); 否则 ， 我 们 只 能 看 到 裸 的 、 十 六 进 制 的 清单 ， 因 
而 只 有 通过 其 他 途径 解 开 这 些 数 字 的 含义 ， 才 能 弄 清楚 真正 的 调用 栈 。 


系统 挂 起 


尽管 内 核 代码 中 的 大 多 数 错误 只 会 导致 一 个 oops 消 息 , 但 有 时 它们 会 将 系统 完全 挂 起 。 
如 果 系 统 挂 起 了 ,任何 消息 都 无 法 打印 出 来 。 例如， 如 果 代码 进入 一 个 死 循 环 ， 内核 就 
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会 停止 调度 ( 注 3)， 系统 不 会 再 响应 任何 动作 ,包括 Ctri-Alt-Del 组 合 键 。 处 理 系统 挂 
起 有 两 个 选择 一 一 要么 是 防 患 于 未 然 ， 要 么 是 亡羊补牢 ， 在 发 生 挂 起 后 调试 代码 。 


通过 在 一 些 关键 点 上 插入 schedule 调用 可 以 防止 死 循 环 。schedule 国 数 (正如 读者 猜 到 
的 ) 会 调用 调度 器 , 并 因此 人 允许 其 他 进程 “ 偷 取 ” 当 前 进程 的 CPU 时间。 如 果 该 进程 因 
驱动 程序 的 错误 而 在 内 核 空间 陷 人 死 循 环 ， 则 可 以 在 跟踪 到 这 种 情况 之 后 ， 借 助 
Schedule 调用 杀 死 这 个 进程 。 


当然 , 应 该 意识 到 任何 对 schedule 的 调用 都 可 能 给 驱动 程序 带 来 代码 重 人 的 问题 , 因为 
schedule 允许 其 他 进程 开始 运行 。 如 果 我 们 在 驱动 程序 中 使 用 了 合适 的 锁定 , 这 种 重 入 
通常 不 会 带 来 问题 。 不 过 ， 一 定 不 要 在 驱动 程序 持 有 自 旋 锁 的 任何 时 候 调用 schedule。 


如 果 驱 动 程序 确实 会 挂 起 系统 , 而 你 又 不 知 该 在 什么 位 置 插入 schedule 调 用 时 , 最 好 的 
方法 是 加 入 一 些 打 印信 息 ， 并 把 它们 写 和 控制 台 ( 必 要 时 修改 console_loglevel 的 
值 )。 


有 时 系统 看 起 来 像 挂 起 了 , 但 其 实 并 没有 。 例如， 如 果 键 盘 因 某 种 奇怪 的 原因 被 锁 住 了 
就 会 发 生 这 种 情况 。 这 时 ,运行 专 为 探 明 此 种 情况 而 设计 的 程序 , 通过 查看 它 的 输出 情 
况 , 可 以 发 现 这 种 假 的 挂 起 。 显示器 上 的 时 钟 或 系统 负荷 表 就 是 很 好 的 状态 监视 器 ; 只 
要 这 些 程序 保持 更 新 ， 就 说 明 调度 器 仍 在 工作 。 


对 于 上 述 情形 ， 一 个 不 可 缺少 的 工具 是 “SysRq 魔法 键 (magic SysRq key)”， 大 多 数 
架构 上 都 可 以 利用 魔法 键 SysRq 魔 法 可 通过 PC 键盘 上 的 ALT 和 SysRq 组 合 键 来 激活 ， 
在 其 他 平台 上 则 通过 其 他 特殊 键 激活 (详情 可 见 Documentation/sysrq.tx!), 串口 控制 台 
上 也 可 激活 。 根据 与 这 两 个 键 一 起 按 下 的 第 三 个 键 的 不 同 , 内 核 会 执行 许多 有 用 动作 中 
的 其 中 一 个 ， 如 下 所 示 : 


r ”关闭 键盘 的 raw 模 式 。 当 某 个 崩溃 的 应 用 程序 (比如 XX 服务 器 ) 让 键盘 处 于 一 种 奇 
怪 状 态 时 ， 就 可 以 用 这 个 键 关闭 raw 模式 。 


k ”激活 “留意 安全 键 (secure attention key，SAK)” 功 能 。SAK 将 杀 死 当前 控制 台 
上 运行 的 所 有 进程 ， 留 下 一 个 干净 的 终端 。 


s ”对 所 有 磁盘 进行 紧急 同步 。 


u ”尝试 以 只 读 模式 重新 挂 装 所 有 磁盘 。 这 个 操作 通常 紧 接着 * 动作 之 后 立即 被 调用 ， 
它 可 以 在 系统 处 于 严重 故障 状态 时 节省 很 多 检查 文件 系统 的 时 间 。 





注 3; 实际 上 ， 多 处 理 器 系统 仍然 会 在 其 他 处 理 器 上 调度 ， 即 使 是 单 处 理 器 系统 ， 如 果 内 核 是 
可 抢占 的 ， 也 会 重新 调度 。 但 在 大 多 数 常见 情形 【禁止 抢占 的 单 处 理 器 ) 下 ， 系 统 会 束 
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b ”立即 重启 系统 。 注 意 先 要 执行 同步 并 重新 挂 装 磁盘 。 
p ”打印 当前 的 处 理 器 寄存 器 信息 。 

t ”打印 当前 的 任务 列表 。 

m ”打印 内 存 信息 。 


其 他 一 些 SysRq 功能 的 信息 可 参阅 内 核 源 代码 Documentation 目录 下 的 sysrg.txi 文件 。 
注意 ，SysRq 功能 必须 显 式 地 在 内 核 配置 中 启用 ， 出 于 安全 原因 ,大 多 数 发 行 版 并 未 启 
用 这 一 功能 。 不 过 , 对 于 一 个 用 于 驱动 程序 开发 的 系统 来 说 , 为 启用 SysRq 功能 而 带 来 
的 重新 编译 新 内 核 的 麻烦 是 值得 的 。 在 系统 运行 时 , 可 通过 下 面 的 命令 启用 SysRq 功 能 : 


echo 0 > /proc/sys/kernel/sysrgq 


如 果 未 授权 用 户 可 以 使 用 系统 的 键盘 , 则 应 该 考虑 禁止 这 个 功能 , 以 避免 出 现 意外 或 者 
革 意 的 破坏 。 以 前 的 一 些 内 核 版 本 默认 禁止 SysRq 功能 ， 因 此 ， 在 运行 时 可 向 上 面 的 
/procisys 文件 中 写 人 工 来 打开 该 功能 。 


为 SysRq 功 能 非常 有 用 ,因此 这 些 功 能 也 对 无 法 访问 控制 台 的 系统 管理 员 开 放 。/proc/ 
sysrq-trigger 是 一 个 只 和 写 的 /proc 入口 点 , 向 这 个 文件 写 人 对 应 的 字符 , 就 可 以 触发 相应 
的 SysRq 动作 。 这 个 针对 SysRq 的 入 口 点 始终 可 用 ， 即使 控制 台 上 的 SysRq 是 禁止 的 。 


如 果 读 者 遇 到 “ 活 的 挂 起 "， 即 驱动 程序 进入 了 某 个 死 循环 但 系统 整体 还 能 工作 ， 则 值 
得 了 解 针对 这 种 情况 的 一 些 技巧 。 通常 ，SysRq 的 p 功 能 可 直接 指出 有 问题 的 例 程 所 在 
的 位 置 。 如 果 这 种 方法 行 不 通 , 还 可 以 使 用 内 核 剖 析 功 能 。 构造 一 个 打开 剖析 功能 的 内 
核 , 并 通过 引导 命令 行 参 数 profile=2 引导 该 内 核 。 利 用 readprofile 工具 重 置 剖析 计 
数 器 , 然后 让 驱动 程序 进入 死 循环 状态 。 经 过 一 段 时 间 之 后 , 再 次 使 用 readprofile 即 可 
观察 到 浪费 CPU 资源 的 内 核 位 置 。 另 外 一 个 更 加 高 级 的 方法 是 使 用 oprofile。 内 核 源 代 
码 中 的 Documentation/basic_profiling.txt 文件 详细 描述 了 剖析 器 相关 的 所 有 东西 。 


在 复 现 系统 的 挂 起 故障 时 , 另 一 个 要 采取 的 预防 措施 是 , 把 所 有 的 磁盘 以 只 读 的 方式 挂 
装 在 系统 上 (或 千 脆 卸装 它们 )。 如 果 磁 盘 是 只 读 的 或 者 并 未 挂 装 ， 就 不 存在 破坏 文件 
系统 或 致使 文件 系统 处 于 不 一 致 状态 的 风险 。 另 一 个 可 行 方法 是 ， 通 过 NEFS (network 
filesystem, 网 络 文件 系统 ) 挂 装 所 有 的 文件 系统 。 这 个 方法 要 求 内 核 具 有 “NEFS-Root 
的 能 力 , 而 且 在 引导 时 还 需 传人 一 些 特定 的 参数 。 如 果 采 用 这 种 方法 , 即使 我 们 不 借助 
于 SysRq， 也 能 避免 任何 文件 系统 的 崩溃 ,因为 NES 服务 器 管理 着 文件 系统 的 一 致 性 ， 
而 它 并 不 受 设备 驱动 程序 的 影响 。 


102 _ 三 第 四 章 








调试 器 和 相关 工具 


最 后 一 种 调试 模块 的 方法 就 是 使 用 调试 器 来 一 步 步 地 跟踪 代码 ,查看 变量 和 计算 机 寄存 
器 的 值 。 这 种 方法 非常 耗 时 ,应 该 尽量 避免 。 不过， 某 些 情况 下 通过 调试 器 对 代码 进行 
细 粒 度 的 分 析 是 很 有 价值 的 。 


在 内 核 中 使 用 交互 式 调试 器 是 一 个 很 复杂 的 问题 ,出 于 对 系统 所 有 进程 的 整体 利益 的 考 
虑 ,内核 在 它 自己 的 地 址 空间 中 运行 。 其 结果 是 , 许多 用 户 空 间 下 的 调试 器 所 提供 的 党 
用 功能 很 难 用 于 内 核 之 中 ， 比 如 断 点 和 单 步 调试 等 。 本 节 着 眼 于 调试 内 核 的 几 种 方法 ; 
它们 每 一 种 都 各 有 利 浆 。 


使 用 gdb 


gdb 在 探究 系统 内 部 行为 时 非常 有 用 。 在 我 们 这 个 层次 上 ， 要 部 练 使 用 调试 器 ,需要 掌 
担 gdb 命 令 、 了 解 目 标 平台 的 汇编 代码 , 还 要 具备 对 源 代码 和 优化 后 的 汇编 码 进行 匹配 
的 能 力 。 


启动 调试 器 时 必须 把 内 核 看 作 是 一 个 应 用 程序 .除了 指定 未 压缩 的 内 核 映 像 文件 名 以 外 ， 
还 应 该 在 命令 行 中 提供 “core 文 件 ” 的 名 称 。 对 于 正在 运行 的 内 核 , 所 谓 的 core 文 件 就 
是 这 个 内 核 在 内 存 中 的 核心 映像 ， 即 /proc/kcore。 典 型 的 gdb 调用 如 下 所 示 : 


gdb /usr/src/linux/vmlinux /proc/kcore 


第 一 个 参数 是 未 经 压缩 的 内 核 ELF 可 执行 文件 的 名 字 ， 而 不 是 zlmage 或 bzImage 以 及 
其 他 任何 针对 特定 引导 环境 创建 的 特殊 内 核 映像 。 


gdb 命令 行 的 第 二 个 参数 是 core 文件 的 名 字 。 与 其 他 /proc 中 的 文件 类 似 ，/proc/kcore 
也 是 在 被 读 取 时 产生 的 。 在 /proc 文 件 系统 中 执行 read 系统 调用 时 ， 它 会 映射 到 一 个 用 
于 数据 生成 而 不 是 数据 读 取 的 函数 上 ; 我 们 已 在 “使 用 /proc 文件 系统 ”一 节 中 介绍 了 
这 个 特性 。kcore 用 来 按照 core 文 件 的 格式 表示 内 核 的 “可 执行 文件 "; 由 于 它 要 表示 对 
应 于 所 有 物理 内 存 的 整个 内 核 地 址 空间 , 所 以 是 一 个 非常 巨大 的 文件 .在 gdb 的 使 用 中 ， 
可 以 通过 标准 gdb 命 令 查 看 内 核 变量 。 例如 , P jiffies 命 令 可 以 打印 从 系统 启动 到 当 
前 时 刻 的 时 钟 滴答 数 。 


当 从 gdb 打印 数据 时 ， 内 核 仍 在 运行 ， 不 同 数 据 项 的 值 会 在 不 同时 刻 有 所 变化 ， 然 而 ， 
gdb 为 了 优化 对 core 文 件 的 访问 ,会 将 已 经 读 到 的 数据 缓存 起 来 .如 果 再 次 查看 jiffies 
变量 , 仍 会 得 到 和 上 次 一 样 的 值 , 对 通常 的 core 文 件 来 说 , 对 变量 值 进行 缓存 是 正确 的 ， 
这 样 可 避免 额外 的 磁盘 访问 。 但 对 “动态 的 ”core 文件 来 说 就 不 方便 了 。 解 决 方法 是 在 
需要 刷新 gdb 缓存 的 时 候 ， 执行 core-file/proc/kcore 命令 ; 调试 器 将 使 用 新 的 core 文件 
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并 丢弃 所 有 的 旧 信息 。 不 过 , 读 取 新 数据 时 并 不 总 是 需要 执行 core-file 命令 ， 因 为 8db 
以 几 KB 大 小 的 小 数据 块 形式 读 取 core 文件 ， 缓 存 的 仅 是 已 经 引用 的 若干 小 块 。 


对 内 核 进行 调试 时 ，gdb 的 许多 常用 功能 都 不 可 用 。 例 如 ，gdb 不 能 修改 内 核 数据 ; 因 
为 在 处 理 其 内 存 映 像 之 前 ，gdb 期 望 把 待 调试 的 程序 运行 在 自己 的 控制 之 下 。 同 样 ， 我 
们 也 不 能 设置 断 点 或 观察 点 ， 或 者 单 步 跟 跨 内 核 函 数 。 


注意 , 为 了 让 gdb 使 用 内 核 的 符号 信息 ,我 们 必须 在 打开 CONFIG_DEBUG_INFO 选 项 的 
情况 下 编译 内 核 。 其 结果 将 产生 一 个 非常 大 的 内 核 映 像 , 但 车 没有 符号 信息 , 观察 内 核 
变量 的 目的 基本 上 无 法 完成 。 


在 调试 信息 可 用 的 情况 下 ,我 们 可 了 解 到 许多 内 核 内 部 的 工作 情况 。8db 可 以 轻松 打印 
结构 、 跟 踪 指 针 等 等 。 但 是 ， 困 难 在 于 处 理 模块 。 因 为 模块 不 是 传递 给 gdb 的 vmlinux 
映像 的 一 部 分 ， 因 此 调试 器 根本 不 知道 模块 的 存在 。 幸 运 的 是 ， 从 内 核 2.6.7 开始 ， 我 
们 可 以 通过 一 些 方法 告诉 8db 有 关 可 装载 模块 的 信息 。 


Linux 的 可 装载 模块 是 ELF 格 式 的 可 执行 映像 ， 模 块 会 被 划分 为 许多 代码 段 。 一 个 典型 
的 模块 可 能 包含 十 多 个 或 者 更 多 的 代码 段 , 但 对 调试 会 话 来 讲 , 相关 的 代码 段 只 有 下 面 


三 个 : 


.text 
这 个 代码 段 包含 了 模块 的 可 执行 代码 ,调试 器 必须 知道 该 代码 段 的 位 置 才能 给 出 追 
踪 信息 或 者 设置 断 点 ( 当 我 们 在 /proc/kcore 上 运行 调试 器 时 ， 这 两 个 操作 均 无 法 
实现 ， 但 如 果 使 用 下 面 讲 到 的 kgdb， 则 这 两 个 操作 非常 有 用 )。 


.bss 

.data 
这 两 个 代码 段 保 存 模块 的 变量 。 任何 编译 时 未 初始 化 的 变量 保存 在 .bss 段 , 而 其 
他 经 过 初始 化 的 变量 保存 在 .Gata 段 。 


为 了 gdp 能够 处 理 可 装载 模块 ,必须 告诉 调试 器 装载 模块 代码 段 的 具体 位 置 。 该 信息 可 
通过 sysfs 的 /sysfs/module 获得 。 例 如 ， 在 装载 了 scull 模块 之 后 ，/sys/modulelsculll 
sections 目录 中 将 包含 类 似 .text 这 样 名 字 的 文件 , 这 些 文件 的 内 容 是 对 应 代码 段 的 基地 
址 。 


现在 可 以 通过 一 条 gdb 命 令 告 诉 调试 器 有 关 模 块 的 信息 了 。 这 条 命令 就 是 add-symbol- 
file， 该 命令 需要 用 模块 目标 文件 的 名 称 、.text 段 的 基地 址 以 及 其 他 一 些 选项 作为 参 
数 ， 这 些 选项 描述 了 其 他 必要 的 代码 段 信 息 。 通 过 sysfs 获取 模块 的 代码 段 数据 后 ,我 
们 可 以 如 下 构造 这 条 命令 : 
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(gdb) add-aymbol-file .../scull.ko 0xd0832000 \ 
-8 -bBe 0xd0837100 \ 
-B .data Oxd0836be0 


在 示例 代码 中 已 经 包含 了 一 个 小 的 法 本 (gdbline )， 使 用 这 个 脚本 可 以 为 某 个 给 定 的 模 
块 构造 上 述 命令 。 


之 后 , 就 可 以 使 用 gdb 来 检查 可 装载 模块 中 的 变量 了 。 下 面 是 来 自 某 个 scxL 调 试 会 话 的 
示例 : 
(gab) add-symbol-file scull.ko 0xd0832000 \ 
-8 .bss 0xd0837100 \ 
~B .data Oxd0836be0 
add symbol table from file "scull.ko" af 
.text_addr = 0xd0832000 
.bss_addr = 0xd0837100 
.data_addr = 0xd0836be0 
(Y or D) Y 
Reading symbols from scull,ko...done. 
{gdb) p scull devices[0] 
$1 = {data = 0xcftd66c50， 
cuantum = 4000, 
qset = 1000, 
size = 20881, 
access_key = 0, 
es ! 


从 上 面 的 例子 看 出 ,第 一 个 scull 设备 是 前 保存 有 20 881 字 节 的 数据 。 如 果 愿 意 ， 我 们 
还 可 以 跟踪 数据 链 , 或 者 查看 模块 中 的 其 他 任何 感 兴趣 的 数据 。 另外 一 个 值得 掌握 的 技 
巧 是 : 

(gdb) print *(address) 


在 上 面 的 命令 中 , 我们 要 为 address 传人 一 个 十 六 进 制 的 地 址 值 ， 该 命令 的 输出 是 该 
地 址 对 应 的 文件 以 及 代码 行 数 。 这 个 技巧 非常 有 用 , 例如 , 我 们 可 以 利用 这 条 命令 找 出 
某 个 函数 指针 所 指 的 函数 定义 在 什么 地 方 。 


但 是 ,我 们 仍然 不 能 通过 gdb 执行 典型 的 调试 命令 ， 比 如 设置 断 点 或 者 修改 变量 值 。 为 
了 执行 这 些 操作 ， 需 要 类 似 kdb (下 一 节 描 述 ) 或 者 kgdb ( 稍 后 介绍 ) 这 样 的 工具 。 


kdb 内 核 调试 器 


很 多 读者 可 能 会 奇怪 , 为 什么 不 把 一 些 更 高 级 的 调试 功能 直接 编译 进 内 核 呢 。 答 案 很 简 
单 ， 因 为 Linus 不 信任 交互 式 的 调试 器 。 他 担心 这 些 调试 器 会 导致 一 些 不 良 的 修改 ,也 
就 是 说 , 修补 的 仅 是 一 些 表面 现象 ,而 没有 发 现 问 题 的 真正 原因 所 在 。 因 此 ， 他 不 支持 
在 内 核 中 内 置 调试 器 。 
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然而 ， 其 他 的 内 核 开 发 人 员 偶尔 也 会 用 到 一 些 交 互 式 的 调试 工具 。kczb 就 是 其 中 一 种 内 
置 的 内 核 调试 器 ， 它 在 oss.s8L.com 上 以 非 正式 的 补丁 形式 提供 。 要 使 用 kdab， 必 须 首先 
获得 这 个 补丁 《取得 的 版 本 一 定 要 和 内 核 版 本 相 匹配 ) ， 然 后 对 当前 内 核 源 代码 进行 
patch 操 作 ,， 再 重新 编译 并 安装 这 个 内 核 。 注意 ，kdb 仅 可 用 于 IA-32 (x86) 系统 (虽然 
用 于 IA-64 的 一 个 版 本 在 主流 内 核 源 代 码 中 短暂 地 出 现 过 ， 但 很 快 就 被 出 去 了 )。 


一 旦 运行 的 是 支持 kdb 的 内 核 ， 则 可 以 用 下 面 几 个 方法 进入 kdb 的 调试 状态 。 在 控制 台 
上 按 下 Pause (或 Break) 键 将 启动 调试 。 当 内 核发 生 oops， 或 到 达 某 个 断 点 时 ， 也 会 
启动 kdb。 无 论 是 哪 一 种 情况 ， 都 会 看 到 下 面 这 样 的 消息 : 


Entering kdb (0xc0347b80) on processor 0 due to Keyboard Entry 
[0] kdb> 


注意 ， 当 kdb 运行 时 ， 内 核 所 做 的 每 一 件 事情 都 会 停 下 来 。 当 激活 kdb 调试 时 ， 系 统 不 
应 运行 其 他 任何 东西 ; 尤其 是 ， 不 要 开启 网 络 功能 一 一 当然， 除非 是 在 调试 网 络 驱 动 
程序 。 一 般 来 说 ， 如 果 要 使 用 kdb， 最 好 在 启动 时 进入 单 用 户 模式 。 


作为 一 个 例子 , 考虑 下 面 这 个 快速 的 scul! 调 试 过 程 。 假定 驱动 程序 已 被 载 入 , 可 以 像 下 
面 这 样 指 示 kdb 在 scull_read 函数 中 设置 一 个 断 点 : 


[0]kdb> bp scull_ read 

Instruction(i) BP #0 at Oxcd087c5dc (scull_read) 
is enabled globally adjust 1 

[0]kdb> go 


bp 命令 指示 kdb 在 内 核 下 一 次 进入 scull_read 时 停止 运行 。 随后 我 们 输入 go 继续 执行 。 
在 把 一 些 东西 放 入 scull 的 某 个 设备 之 后 ， 我 们 可 以 在 另 一 台 终 端的 shell 中 运行 cat 命 
令 尝 试 读 取 这 个 设备 ， 这 样 一 来 就 会 产生 如 下 的 状态 : 


Instruction(i) breakpoint #0 at Oxd087c5dc (adjusted) 
0xd087c5dc scull_read: int3 


Entering kdb (current=0xcf09f£890, pid 1575) on processor 0 due to 
Breakpoint @ Oxd087c5dc 
[0] kab> 


我 们 现在 正 处 于 scull_read 的 开头 位 置 。 为 了 查 明 是 怎样 到 达 这 个 位 置 的 , 我 们 可 以 看 
看 堆栈 跟踪 记录 : 


[0]kdb> bt 

ESP El1P Function (args) 
Oxcdbddf74 0xd087c5dc [scull]scull_read 
Oxcdbadf78 Oxc0150718 vfs_read+0xb8 
Oxcdbddfa4 0xc01509c2 sys_read+0x42 
Oxcdbddfc4 0xc0103fcf syscall_call+0x7 
[0]kapb> 
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kdb 试图 打印 出 调用 跟踪 所 记录 的 每 个 函数 的 参数 列表 。 然 而 ， 它 往往 会 被 编译 器 所 使 
用 的 优化 技巧 弄 糊涂 。 因 此 ， 它 无 法 正确 打印 scull_read 的 参数 。 


下 面 我 们 来 看 看 如 何 查 询 数 据 。mds 命令 是 用 来 对 数据 进行 处 理 的 ; 我 们 可 以 用 下 面 的 
命令 查询 scull_devices 指针 的 值 : 


[0]kdb> mds scull_devices 1 
0xdq0880de8 cf36ac00 


在 这 里 , 我 们 要 查看 的 是 从 scull_qdevices 指 针 位 置 开始 的 一 个 字 大 小 (4 个 字 节 ) 的 
数据 ; 该 命令 的 结果 告诉 我 们 , 设备 数组 的 起 始 地 址 位 于 0xa0880de8, 而 第 一 个 设备 
结构 本 身 位 于 0xcf36ac00。 要 查看 设备 结构 中 的 数据 ， 我 们 需要 用 到 这 个 地 址 : 

[0]kdb> mds cf36ac00 

Oxcf36ac00 cel37dbc .... 

Oxcf36ac04 00000fa0 .... 

Oxcf36ac08 000003e8 .，.， 

Oxcf36ac0c 0000009b .... 

0xcft36ac10 00000000 ，.，. 

0xcf36acl4 00000001 .... 

0xcf36ac18 00000000 .... 

Oxcf36aclc 00000001 .... 


上 面 的 8 行 数 据 分 别 对 应 于 scull_dev 结构 中 起 始 数 据 。 这 样 ,通过 这 些 数 据 可 以 知 
道 , 第 一 个 设备 的 内 存 是 从 0xce137dGbc 开 始 分 配 的 , 量子 大 小 为 4000 (十 六 进 制 形式 
为 fa0) 字 节 , 量子 集 大 小 为 1000 (十 六 进 制 形式 为 3e8), 这 个 设备 中 保存 有 155 (十 
六 进 制 形式 为 9b) 个 字 节 的 数据 ， 等 等 。 


kdb 还 可 以 修改 数据 。 假 设 我 们 要 从 设备 中 削减 一 些 数据 : 


{0]kdb> mm cf26acO0c 0x50 
0xcf26ac0c = 0x50 


接 下 来 对 设备 的 cat 操作 所 返回 的 数据 就 会 少 于 上 次 。 


kdb 还 有 许多 其 他 功能 , 包括 单 步调 试 (根据 指令 , 而 不 是 C 源 代码 行 ), 在 数据 访问 中 
设置 断 点 、 反 汇编 代码 、 跟 踪 链 表 以 及 访问 寄存 器 数据 等 等 。 在 应 用 了 kdb 补丁 之 后 ， 
在 内 核 源 代码 树 的 Documentatrion/kdb 目录 下 可 以 找到 完整 的 kdb 相关 手册 页 。 


kgdb 补丁 

目前 我 们 看 到 了 两 种 交互 式 调试 方法 (在 /proc/kcore 上 使 用 gdb 以 及 kdb), 这 两 种 方法 
均 无 法 提供 类 似 于 应 用 程序 开发 人 员 使 用 的 环境 。 我 们 希望 有 一 种 真正 的 内 核 调试 器 ， 
它 支持 变量 的 修改 及 断 点 的 设置 等 等 。 
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如 同 我 们 提 到 过 的 ,的 确 存在 这 样 一 种 解决 方案 .在 本 书 编写 时 , 存在 两 个 独立 的 补丁 ， 
它们 均 可 以 让 拥有 完整 功能 的 gdb 针对 内 核 运 行 。 令 人 迷惑 的 是 ， 这 两 个 补丁 均 称 为 
“kgdb”。 它们 将 运行 调试 内 核 的 系统 和 运行 调试 器 的 系统 隔离 开 来 而 工作 , 而 这 两 个 系 
统 之 问 通过 串口 线 缆 连 接 。 因 此 ， 开 发 人 员 可 在 他 或 她 的 稳定 桌面 系统 上 运行 &dbp， 而 
在 “ 作 辆 牲 用 的 ”测试 系统 上 操作 要 调试 的 内 核 。 在 这 种 工作 模式 下 ,设置 和 安装 gdb 
省 要 花 一 些 先期 功夫 ， 但 对 调试 困难 的 缺陷 来 讲 ， 基 收益 很 快 就 能 体现 出 来 。 


这 两 个 补丁 均 处 于 剧烈 变化 的 状态 , 而 且 可 能 在 将 来 合并 到 一 起 , 因此 我 们 不 打算 在 这 
里 详细 讲述 这 两 个 补丁 的 基本 功能 。 我 们 鼓励 感 兴趣 的 读者 跟踪 相关 事件 的 发 生 。 第 一 
个 kgdb 补 于 可 在 -mm 内核 树 〈 亦 即 2.6 主流 代码 的 补丁 区 ) 中 找到 。 这 个 kgdb 版 本 支 
持 x86、SuperH、ia64、x96_64、SPAR 以 及 32 位 的 PPC 架构 。 除 了 通过 串口 操作 之 
外 , 它 还 支持 通过 局 域 网 的 通信 。 通 过 打开 以 太 网 模式 , 并 在 引导 时 设置 kgdboe 参 数 ， 
指出 调试 命令 来 源 地 的 IP 地 址 就 可 以 支持 局 域 网 通信 。Documentation/i386/kgdb 下 的 
文档 描述 了 如 何 进 行 相关 设置 ( 注 4)。 


另外 . 读者 还 可 以 使 用 htip://kgdb.sf.net/ 上 的 kgdb 补 丁 。 虽然 这 个 kgdb 版 本 不 支持 网 
络 通信 模式 (据说 正在 开发 中 ), 但 它 对 可 装载 模块 提供 了 内 置 支持 。 它 支持 x86、 
x86_64、PowerPC 以 及 S/390 架构 。 


用 户 模式 的 Linux 虚拟 机 


用 户 模式 Linux (User-Mode Linux，UML) 是 一 个 很 有 意思 的 概念 。 它 作为 一 个 独立 
的 ， 可 移植 的 Linux 内 核 而 被 创建 包含 在 子 目 录 arch/um 中 。 然 而 ， 它 并 不 是 运行 在 
某 种 新 的 硬件 上 ， 而 是 运行 在 基于 Linux 系统 调用 接口 所 实现 的 虚拟 机 之 上 。 因 此 , 用 
户 模式 Linux 可 以 使 Linux 内 核 成 为 一 个 运行 在 Linux 系统 之 上 的 、 独 立 的 用 户 模式 的 
进程 。 


将 一 个 内 核 副本 当 作用 户 模式 下 的 进程 来 运行 可 以 带 来 很 多 好 处 .因为 它 运行 在 一 个 受 
约束 的 虚拟 处 理 器 之 上 ， 所 以 有 错误 的 内 核 不 会 破坏 “真正 的 ”系统 。 对 软 /硬件 的 不 
同 配置 可 以 在 相同 的 框架 中 轻易 地 进行 尝试 。 并且, 对 于 内 核 开发 人 员 来 说 最 值得 关注 
的 特点 在 于 ,可 以 很 容易 地 利用 gdb 或 其 他 调试 器 对 用 户 模式 Linux 进行 处 理 ， 因 为 归 
根 结 底 它 只 是 一 个 进程 。 很 明显 ，UML 有 潜力 加 快 内 核 的 开发 过 程 。 





注 4: 然而 忽略 指出 的 是 ,我 们 应 该 将 网 络 迁 配 器 的 驱动 程序 构建 到 内 核 中 ,否则 调试 器 无 法 
在 引导 阶段 找到 网 络 适 配器 ， 从 而 会 自动 关机 。 
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然而 , 从 驱动 程序 编写 者 的 角度 看 , UML 也 有 非常 明显 的 缺点 : 用 户 模式 的 内 核 无 法 访 
问 主机 系统 的 硬件 。 这 样 ， 虽 然 通 过 UML 可 以 调试 本 书 中 提 到 的 大 部 分 示例 驱动 程序 
但 却 无 法 调试 那些 和 真正 的 硬件 打交道 的 驱动 程序 。 


有 关 UML 的 详细 信息 ， 可 访 间 http:/iuser-mode-linux.sf.neti。 


Linux 跟踪 工具 包 


Linux 跟踪 工具 包 (Linux Trace Toolkit，LTT) 是 一 个 内 核 补丁 ， 包 含 了 一 组 可 以 用 
于 内 核 事 件 跟 踪 的 相关 工具 集 。 跟踪 内 容 包 括 时 间 信 息 , 而 且 还 能 合理 地 建立 在 一 段 指 
定时 间 内 所 发 生 事 件 的 完整 描述 。 因 此 ,LTT 不 仅 能 用 于 调试 , 还 能 用 来 捕捉 性 能 方面 
的 问题 。 


在 htip://www.opersys.com/iLTT 上 可 以 找到 LTT 以 及 大 量 的 文档 资料 。 


动态 探测 

动态 探测 (Dynamic Probes，DProbes) 是 IBM 为 基于 IA-32 架构 的 Linux 发 布 的 一 种 
调试 工具 (遵循 GPL 协议 )。 它 可 在 系统 的 几乎 任何 一 个 地 方 放置 一 个 “ 探 针 ”, 既 可 以 
是 用 户 空 间 也 可 以 是 内 核 空间 。 这 个 探 针 由 一 些 特殊 代码 (用 一 种 特别 设计 的 、 面 向 堆 
栈 的 语言 编写 ) 组 成 ， 当 控制 到 达 给 定点 时 ,这 些 代码 开始 执行 。 这 种 代码 能 向 用 户 空 
间 汇 报 数 据 、 修 改 寄 存 器 ， 或 者 完成 许多 其 他 工作 。DProbes 很 有 用 的 特点 是 ， 一 旦 内 
核 中 编译 进 了 这 个 功能 , 探 针 就 可 以 插 到 一 个 运行 系统 的 任意 一 个 位 置 , 而 无 需 重建 内 
核 或 重新 启动 。DProbes 也 可 以 协同 LTT 工具 在 任意 位 置 插入 新 的 跟踪 事件 。 


DProbes 工具 可 以 从 IBM 的 开放 源 代码 站 点 http://oss.software.ibm.com 上 下 载 。 








目前 为 止 , 我 们 很 少 关注 并 发 问题 一 一 亦 即 ， 当 系统 试图 一 次 完成 多 个 任务 时 会 产生 什 
么 结果 。 但是, 对 并 发 的 管理 是 操作 系统 编程 中 核心 的 问题 之 一 。 并 发 相关 的 缺陷 是 最 
容易 制造 的 , 也 是 最 难 找到 的 。 即 使 是 Linux 内 核 开发 专家 也 会 偶尔 制造 并 发 相关 的 缺 
陷 。 


在 早期 的 Linux 内 核 中 , 并 发 的 来 源 相对 较 少 。 早期 内 核 不 支持 对 称 多 处 理 (symmetric 
multiprocessing, SMP ), 因此 ， 导致 并 发 执行 的 唯一 原因 是 对 硬件 中 断 的 服务 。 这 种 情 
况 处 理 起 来 较为 简单 ,但 并 不 适用 于 为 获得 更 好 的 性 能 而 使 用 更 多 处 理 器 且 强 调 快速 响 
应 事件 的 系统 。 为 了 响应 现代 硬件 和 应 用 程序 的 需求 ，Linux 内 核 已 经 发 展 到 同时 处 理 
更 多 事情 的 时 代 。 这 种 变革 使 得 内 核 性 能 及 伸缩 性 得 到 了 相当 大 的 提高 ， 然而 也 极 大 提 
高 了 内 核 编程 的 复杂 性 。 设备 驱动 程序 开发 者 必须 在 开始 设计 时 就 考虑 到 并 发 因素 , 并 
且 还 必须 对 内 核 提供 的 并 发 管理 设施 有 坚实 的 理解 。 


本 章 将 帮助 读者 对 并 发 管理 有 个 初步 的 理解 。 为 此 ， 我 们 将 介绍 一 些 用 于 并 发 管理 的 设 
施 , 同时 将 应 用 来 自 第 三 章 的 scul! 驱 动 程序 ， 而 本 章 介 绍 的 其 他 设施 不 会 在 这 里 使 用 。 
但 是 首先 , 我 们 要 分 析 简 单 的 scul! 驱 动 程序 可 能 会 导致 什么 问题 ， 并 介绍 如 何 避 免 这 些 
潜在 的 问题 。 


scull 的 缺陷 


首先 快速 浏览 scul! 内 存 管理 代码 的 一 些 片 断 。 深入 到 驱动 程序 的 write 逻 辑 时 ,我 们 发 
现 ，scull 必须 判断 所 请 求 的 内 存 是 否 已 经 分 配 好 。 下 面 的 代码 处 理 了 这 个 问题 : 
if (!dptr->data[ls_pos]) { 
dptr->data[ls_pos] = kmalloc (quantum, GFP_KERNEL); 


if (!dptr->data[ls_pos]) 
goto out; 
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假定 有 两 个 进程 (我 们 称 之 为 “A” 和 “B” ) 正在 独立 地 尝试 向 同一 个 scull 设 备 的 相同 
偏 移 量 写 人 数据 ,而 且 两 个 进程 在 同一 时 刻 到 达 上 述 代 码 段 中 的 第 一 个 i£ 判 断 语句 。 如 
果 代 码 涉 及 的 指针 是 NULL， 两 个 进程 都 会 决定 分 配 内 存 ， 而 每 个 进程 都 会 将 结果 指针 
赋值 给 aptr->data[s_pos] 。 因 为 两 个 进程 对 同一 位 置 赋值 ， 显 然 只 有 一 个 赋值 会 成 
功 。 


当然 ， 其 结果 是 第 二 个 完成 赋值 的 进程 会 “胜出 " 。 如 有 果 进 程 A 首先 赋值 ， 则 它 的 赋值 
会 被 进程 B 覆盖 。 这 样 ，scul! 会 完全 忘记 由 A 分 配 的 内 存 , 而 只 会 记录 由 进程 B 分 配 得 
到 的 指针 。 因 此 ， 由 A 分 配 的 内 存 将 丢失 ， 从 而 永远 不 会 返回 到 系统 中 。 


上 述 事 件 过 程 就 是 一 种 竞 态 (race condition)。 竞 态 会 导致 对 共享 数据 的 非 控 制 访问 。 发 
生 错误 的 访问 模式 时 , 会 产生 非 预期 的 结果 。 对 这 里 讨论 的 竞 态 , 其 结果 是 内 存 的 泄漏 。 
这 种 结构 已 经 够 精 料 的 了 ,但 某 些 竞 态 经 常会 导致 系统 崩溃 、 数据 被 破坏 或 者 产生 安全 
问题 。 因 为 竞 态 是 一 种 极端 低 可 能 性 的 事件 , 因此 程序 员 往 往 会 忽视 竞 态 。 但 是 在 计算 
机 世界 中 ， 百 万 分 之 一 的 事件 可 能 没 几 秒 就 会 发 生 ， 而 其 结果 是 灾难 性 的 。 


稍 后 我 们 会 消除 来 自 scul! 的 竞 态 ,但 是 首先 需要 对 并 发 有 个 更 一 般 性 的 描述 。 


并 发 及 其 管理 


在 现代 Linux 系统 中 存在 大 量 的 并 发 来 源 ， 因 此 会 导致 可 能 的 竞 态 。 正 在 运行 的 多 个 用 
户 空 间 进程 可 能 以 一 种 令 人 惊讶 的 组 合 方式 访问 我 们 的 代码 .SMP 系 统 甚至 可 在 不 同 的 
处 理 器 上 同时 执行 我 们 的 代码 。 内 核 代码 是 可 抢占 的 ; 因此 , 我 们 的 驱动 程序 代码 可 能 
在 任何 时 候 丢 失 对 处 理 器 的 独占 ,而 拥有 处 理 器 的 进程 可 能 正在 调用 我 们 的 驱动 程序 代 
码 。 设备 中 断 是 异步 事件 , 也 会 导致 代码 的 并 发 执行 。 内 核 还 提供 了 许多 可 延迟 代码 执 
行 的 机 制 , 比如 workqueue (工作 队列 )、tasklet (小 任务 ) 以 及 timer (定时 器 ) 等 , 这 
些 机 制 使 得 代码 可 在 任何 时 刻 执 行 ,而 不 管 当前 进程 在 做 什么 在 现代 的 热 插 拔 世 界 中 ， 
设备 可 能 会 在 我 们 正 使 用 时 消失 。 


对 竞 态 的 避免 也 许 是 一 种 胁迫 性 的 任务 。 在 任何 事情 可 在 任何 时 间 发 生 的 世界 中 , 驱动 
程序 开发 者 如 何 才能 避免 制造 这 种 混乱 状态 ? 如 我 们 所 愿 , 大 部 分 竞 态 可 通过 使 用 内 核 
的 并 发 控制 原 语 ,并 应 用 几 个 基本 的 原理 来 避免 。 我 们 首先 介绍 这 些 原理 ， 然 后 讲述 如 
何 应 用 这 些 原理 的 细节 。 


竞 态 通常 作为 对 资源 的 共享 访问 结果 而 产生 。 当 两 个 执行 线程 ( 注 1) 需要 访问 相同 的 





注 |: 对 本 章 而 言 ， 执 行 的 “线程 ”指正 在 运行 代码 的 任意 上 下 文 。 每 个 进程 显然 就 是 一 个 执 
行 的 线程 ,但 是 中 断 处 理 例 程 以 及 其 他 用 于 响应 异步 内 核 事 件 的 其 他 代码 也 一 样 是 线程 。 
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数据 结构 (或 硬件 资源 ) 时 , 混合 的 可 能 性 就 永远 存在 。 因此 在 设计 自己 的 驱动 程序 时 ， 
第 一 个 要 记 住 的 规则 是 ， 只 要 可 能 , 就 应 该 避免 资源 的 共享 。 如 果 没 有 并 发 的 访问 ,也 
就 不 会 有 竞 态 的 产生 。 因 此 , 仔细 编写 的 内 核 代码 应 该 具有 最 少 的 共享 。 这 种 思想 的 最 
明显 应 用 就 是 避免 使 用 全 局 变量 。 如 果 我 们 将 资源 放 在 多 个 执行 线程 都 会 找到 的 地 方 ， 
则 必须 有 足够 的 理由 。 


但 是 事情 的 本 质 是 , 这 种 类 型 的 共享 通常 是 必需 的 。 硬 件 资源 本 质 上 就 是 共享 的 , 而 软 
件 资 源 经 常 需要 对 其 他 执行 线程 可 用 。 我 们 还 要 清楚 的 是 , 全 局 变量 并 不 是 共享 数据 的 
唯一 途径 , 只 要 我 们 的 代码 将 一 个 指针 传递 给 了 内 核 的 其 他 部 分 , 一 个 新 的 共享 就 可 能 
建立 。 因 此 ， 共 享 就 是 现实 的 生活 。 


下 面 是 资源 共享 的 硬 规则 : 在 单个 执行 线程 之 外 共享 硬件 或 软件 资源 的 任何 时 候 , 因为 
另外 一 个 线程 可 能 产生 对 该 资源 的 不 一 致 观察 ， 因 此 必须 显 式 地 管理 对 该 资源 的 访问 。 
在 上 面 的 scull 示 例 中 , 从 进程 B 的 角度 所 看 到 的 数据 是 不 一 致 的 , 也 就 是 说 , 进程 B 不 
知道 进程 A 已 经 为 该 (共享 ) 设备 分 配 了 内 存 , 因此 它 会 执行 它 自己 的 分 配 并 覆盖 A 的 
工作 。 在 这 种 情况 下 , 我 们 必须 控制 对 scul! 数 据 结构 的 访问 。 我们 需要 重新 设计 ,使 得 
代码 要 么 看 到 已 经 分 配 好 的 内 存 , 要 么 知道 内 存 还 没有 分 配 或 将 要 由 其 他 人 分 配 。 访问 
管理 的 常见 技术 称 为 “锁定 ”或 者 “ 互 斥 ” 一 一 确保 一 次 只 有 一 个 执行 线程 可 操作 共享 
资源 。 本 章 其 余 的 大 部 分 内 容 将 讲述 锁定 机 制 。 


但 是 , 我 们 首先 必须 简要 考虑 另外 一 个 重要 的 规则 。 当 内 核 代 码 创建 了 一 个 可 能 和 其 他 
内 核 部 分 共享 的 对 象 时 ， 访 对 象 必须 在 还 有 其 他 组 件 引 用 自己 时 保持 存在 (并 正确 工 
作 )。 当 scull 让 自己 的 设备 可 用 之 时 ， 它 必须 准备 好 在 其 设备 上 的 请 求 ,直到 这 些 设 备 
上 不 存在 任何 引用 (比如 已 打开 的 用 户 空间 文件 ) 为 止 。 这 一 规则 产生 下 面 两 个 需求 : 
在 对 象 尚 不 能 正确 工作 时 , 不 能 将 其 对 内 核 可 用 , 也 就 是 说 , 对 这 类 对 象 的 应 用 必须 得 
到 跟踪 。 在 大 多 数 情况 下 , 我 们 将 发 现 内 核 会 为 我 们 处 理 引 用 计数 , 然而 总 是 会 有 例外 。 


遵守 上 述 规则 需要 仔细 关注 和 规划 对 细节 的 处 理 。 如 果 我 们 自己 还 没有 认识 到 对 被 共享 
资源 的 并 发 访问 ,， 则 其 结果 很 容易 让 人 迷惑 不 解 。 但 是 通过 一 些 手段 , 大 部 分 竞 态 可 在 
其 对 我 们 或 者 我 们 的 用 户 造成 伤害 前 被 处 理 掉 。 


信号 量 和 互 斥 体 
接 下 来 我 们 研究 如 何 为 scull 添 加 锁定 。 我 们 的 目的 是 使 对 scul! 数 据 结构 的 操作 是 原子 


的 , 这 意味 着 在 涉及 到 其 他 执行 线程 之 前 ,整个 操作 就 已 经 结束 了 。 对 我 们 的 内 存 泄漏 
示例 来 说 , 需要 确保 当 一 个 线程 发 现 特定 内 存 块 需要 分 配 时 , 它 应 该 拥有 执行 分 配 的 机 
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会 ， 并 需要 在 其 他 线程 执行 同一 测试 之 前 完成 这 个 工作 。 为 此 ， 我 们 必须 建立 临界 区 : 
在 任意 给 定 的 时 刻 ， 代 码 只 能 被 一 个 线程 执行 。 


并 不 是 所 有 的 临界 区 都 是 一 样 的 , 因此 内 核 为 不 同 的 需求 提供 了 不 同 的 原 语 。 在 我 们 的 
例子 中 ,每 个 发 生 在 进程 上 下 文 的 对 scull 数 据 结构 的 访问 都 被 认为 是 一 个 直接 的 用 户 请 
求 ， 来 自 中 断 处 理 例 程 或 者 其 他 异步 上 下 文 的 访问 都 不 能 发 生 。 这 里 没有 特殊 的 延迟 
(响应 时 间 ) 需求 , 应 用 程序 开发 者 能 够 理解 IO 请 求 通常 不 会 立刻 得 到 满足 。 此 外 , 在 
访问 自己 的 数据 结构 时 ，scull 并 不 拥有 任何 其 他 关键 的 系统 资源 。 这 一 切 意 味 着 ， 当 
scull 驱动 程序 在 等 待 访问 数据 结构 而 进入 休眠 时， 不 需要 考虑 其 他 内 核 组 件 。 


在 这 个 上 下 文中 ,“ 进 入 休眠” 是 一 个 具有 明确 定义 的 术语 。 当 一 个 Linux 进程 到 达 某 个 
时 间 点 ， 此 时 它 不 能 进行 任何 处 理 时 ， 它 将 进入 休眠 (或 “阻塞 ") 状态 .这 将 把 处 理 
器 让 给 其 他 执行 线程 直到 将 来 它 能 够 继续 完成 自己 的 处 理 为 止 。 在 等 待 IO 完成 时 ， 进 
程 经 常会 进入 休眠 状态 。 随 着 我 们 对 内 核 理 解 的 深入 , 将 遇 到 大 量 不 能 休眠 的 情况 。 但 
是 ，scul! 中 的 write 方 法 并 不 是 这 种 情况 之 一 。 因 此 ,我们 可 以 使 用 一 种 锁定 机 制 ， 当 
进程 在 等 待 对 临界 区 的 访问 时 ， 此 机 制 可 让 进程 进入 休眠 状态 。 


重要 的 是 , 我 们 将 执行 另 一 个 操作 (使 用 kzalioc 分 配 内 存 )， 该 操作 也 可 能 会 休眠 ， 
此 休眠 可 能 在 任何 时 刻 发 生 。 为 了 让 我 们 的 临界 区 正确 工作 , 我 们 选择 使 用 的 锁定 原 语 
必须 在 其 他 拥有 这 个 锁 并 休眠 的 情况 下 工作 。 在 可 能 出 现 休 卢 的 情况 下 , 并 不 是 所 有 的 
锁定 机 制 都 可 用 ( 稍 后 我 们 将 看 到 一 些 不 能 休眠 的 锁 机 制 )。 而 上 且 前 ， 对 于 我 们 来 说 最 
合适 的 机 制 是 信号 量 (semaphore)。 


在 计算 机 科学 中 , 信号 量 是 一 个 众所周知 的 概念 。 一 个 信号 量 本 质 上 是 一 个 整数 值 ， 它 
和 一 对 函数 联合 使 用 , 这 一 对 函数 通常 称 为 P 和 V。 项 望 进 入 临界 区 的 进程 将 在 相关 信 
号 量 上 调用 P; 如 果 信号 量 的 值 大 于 零 ， 则 该 值 会 减 小 一 ， 而 进程 可 以 继续 。 相 反 ，、 如 
果 信 号 量 的 值 为 零 (或 更 小 )， 进 程 必须 等 待 直到 其 他 人 释放 该 信号 量 。 对 信号 量 的 解 
锁 通过 调用 V 完成 ; 该 函 数 增加 信号 量 的 值 ， 并 在 必要 时 唤醒 等 待 的 进程 。 

当 信号 量 用 于 互 斥 时 〈 即 避免 多 个 进程 同时 在 一 个 临界 区 中 运行 )， 信 号 量 的 值 应 初始 
化 为 1。 这 种 信号 量 在 任何 给 定时 刻 只 能 由 单个 进程 或 线程 拥有 。 在 这 种 使 用 模式 下 ， 


一 个 信号 量 有 时 也 称 为 一 个 “ 互 斥 体 (mutex)”, 它 是 互 斥 (mutual exclusion) 的 简称 。 
Linux 内 核 中 几乎 所 有 的 信号 量 均 用 于 互 斥 。 


Linux 信号 量 的 实现 


Linux 内 核 遵 守 上 述 语 义 提供 了 信号 量 的 实现 ,然而 在 术语 上 存在 一 些 差异 。 要 使 用 信 
号 量 ， 内 核 代码 必须 包括 <asm/semaphore.h>。 相 关 的 类 型 是 struct semaphore; 实 
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际 的 信号 量 可 通过 几 种 途径 来 声明 和 初始 化 。 其 中 之 一 是 直接 创建 信号 量 ， 这 通过 
sema_init 完成 : 
void sema initl{(struct semaphore *sem, int val); 


其 中 val 是 赋予 一 个 信号 量 的 初始 值 。 


不 过 . 信号 量 通 常 被 用 于 互 斥 模 式 。 为 了 让 这 种 常见 情况 更 加 简单 ,内 核 提供 了 一 组 畏 
助 函 数 和 宏 。 因 此 ， 我 们 可 以 用 下 面 的 方法 之 一 来 声明 和 初始 化 一 个 互 斥 体 : 
DECLARE MUTEX (name); 
DECLARE_MUTEX_LOCKED {name); 
上 面 两 个 宏 的 结果 是 ,一 个 称 为 name 的 信号 量变 量 被 初始 化 为 1( 使 用 DECLARE_MUTEX) 
或 者 0 (使 用 DECLARE_MUTEX_LOCKED)。 在 后 面 一 种 情况 下 ， 互 斥 体 的 初始 状态 是 锁 
定 的 ， 也 就 是 说 ， 在 允许 任何 线程 访问 之 前 ， 必 须 显 式 地 解锁 该 互 斥 体 。 


如 果 互 斥 体 必须 在 运行 时 被 初始 化 (例如 在 动态 分 配 互 斥 体 的 情况 下 )， 应 使 用 下 面 的 
函数 之 一 : 

void init MUTEX(struct semaphore *sem); 

void init_MUTEX_LOCKED (Struct semaphore *sem); 
在 Linux 世界 中 , P 函数 被 称 为 down 一 一 或 者 这 个 名 字 的 其 他 变种 。 这 里 ,“down” 指 
的 是 该 函数 减 小 了 信和 号 量 的 值 , 它 也 许 会 将 调用 者 置 于 休眠 状态 , 然后 等 待 信号 量变 得 
可 用 ， 之 后 授予 调用 者 对 被 保护 资源 的 访问 。 下 面 是 down 的 三 个 版 本 : 

void down{struct Semaphore *Sem) 

int down_interruptible{(struct Semaphore *Sem) ; 

int down_trylockl(struct semaphore *Sem) 
down 减 小 信号 量 的 值 ， 并 在 必要 时 一 直 等 待 。down_interruptible 完成 相同 的 工作 , 但 
操作 是 可 中 断 的 。 可 中 断 的 版 本 几乎 是 我 们 始终 要 使 用 的 版 本 , 它 允 许 等 待 在 某 个 信号 
量 上 的 用 户 空间 进程 可 被 用 户 中 断 。 作 为 通常 的 规则 , 我们 不 应 该 使 用 非 中 断 操作 ， 除 
非 没有 其 他 可 变通 的 办 法 。 非 中 断 操作 是 建立 不 可 杀 进 程 (ps 输出 中 的 “D state”) 的 
好 方法 ， 但 会 让 用 户 感到 恬 恼 。 使 用 down_interruptible 需要 额外 小 心 ， 如 果 操 作 被 中 
断 ， 该 函数 会 返回 非 零 值 ， 而 调用 者 不 会 拥有 该 信号 量 。 对 down_interruptible 的 正确 
使 用 需要 始终 检查 返回 值 ， 并 作出 相应 的 响应 。 


最 后 一 个 版 本 (down_trylock) 永远 不 会 休眠 ; 如 果 信号 量 在 调用 时 不 可 获得 ， 
down_trylock 会 立即 返回 一 个 非 零 值 。 


当 一 个 线程 成 功 调用 上 述 down 的 某 个 版 本 之 后 , 就 称 为 该 线程 “拥有 ”( 或 “ 拿 到 ”、“ 获 
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取 ”) 了 该 信号 量 。 这 样 ， 该 线程 就 被 赋予 访问 由 该 信号 量 保护 的 临界 区 的 权利 。 当 互 
斥 操 作 完 成 后 ， 必 须 返 回访 信号 其 。Linux 等 价 于 V 的 函数 是 up: 


void up{lstruct semaphore *Sem) ; 
调用 up 之 后 ， 调 用 者 不 再 拥有 该 信号 量 。 


如 读者 所 料 , 任何 拿 到 信号 量 的 线程 都 必须 通过 一 次 (只 有 一 次 ) 对 up 的 调用 而 释放 该 
言 号 量 。 在 出 现 错误 的 情况 下 , 经 常 需 要 特别 小 心 ; 如 果 在 拥有 一 个 信号 量 时 发 生 错误 ， 
必须 在 将 错误 状态 返回 给 调用 者 之 前 释放 该 信号 量 。 我 们 很 容易 犯 忘 记 释 放 信号 量 的 错 
误 ， 而 其 结果 (进程 在 某 些 无 关 位 置 处 被 挂 起 ) 很 难 复 现 和 跟踪 。 


在 scull 中 使 用 信号 量 


言 号 量 机 制 为 scull 提 供 了 一 种 工具 , 它 可 以 利用 信号 量 避 免 在 访问 scull_dev 数 据 结 
构 时 产生 竞 态 。 但 我 们 必须 正确 使 用 这 个 工具 。 正确 使 用 锁定 机 制 的 关键 是 ， 明确 指定 
需要 保护 的 资源 , 并 确保 每 一 个 对 这 些 资 源 的 访问 使 用 正确 的 锁定 。 在 我 们 的 示例 虹 动 
程序 中 ,所 有 的 信息 都 包含 在 scull_dev 结构 中 , 因此 该 结构 就 是 我 们 锁定 机 构 的 逻 
辑 范围 。 


该 结构 的 定义 如 下 : 


struct scull_dev { 


struct scull_qset *data; /* 指向 第 一 个 量子 集 的 指针 */ 


int quantum; /* 当前 的 量子 大 小 */ 

int qset; /* 当前 的 数组 大 小 */ 

unsigned long size; /* 保存 在 其 中 的 数据 总 量 */ 

unsigned int access_key; /* 由 sculluid 和 scullpriv 使 用 */ 
struct semaphore sem; /* 互 斥 信号 量 */ 

struct cdev cdev; /* 字符 设备 结构 st 


}; 


该 结构 底部 有 一 个 称 为 sem 的 成 员 , 它 就 是 我 们 的 信号 量 。 我 们 决定 对 每 个 虚拟 的 scull 
设备 使 用 单独 的 信号 量 。 使 用 单个 全 局 的 信号 量 也 是 正确 的 。 但 是 不 同 的 scull 设 备 并 不 
共享 资源 , 因此 没有 理由 让 一 个 进程 在 其 他 进程 访问 不 同 的 scul! 设 备 时 等 待 。 为 每 个 设 
备 使 用 单独 的 信号 量 允 许 不 同 设备 上 的 操作 可 以 并 行 处 理 ， 从 而 可 以 提高 性 能 。 


信号 量 在 使 用 前 必须 初始 化 。scull 在 装载 时 通过 下 面 的 循环 执行 初始 化 : 


for {i = 0; i < scull nr Gevs; i++) { 
scull_devices[il .quantum = scull_quantum; 
scull_devices[i] .qset = scull qset; 
init MUTEX(&scull_devices[i].sem); 
scull_setup_cdev(&scull_ devices{[i], i); 
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注意 ， 信 和 号 量 必须 在 scul!l 设备 对 系统 其 他 部 分 可 用 前 被 初始 化 。 因此， 我 们 在 
scull_setup_cdev 之 前 调用 了 init_MUTEX。 以 相反 的 顺序 执行 上 述 操 作 会 建立 一 个 竞 
态 ， 即 在 信号 量 准 备 好 之 前 ， 有 代码 可 能 访问 它们 。 


接 下 来 , 我 们 必须 仔细 检查 代码 ,确保 在 不 拥有 该 信号 量 的 时 候 不 会 访问 scull_dev 
数据 结构 。 例 如 ，sculli_write 的 开始 处 包含 下 面 的 代码 : 
if (down_interruptiblel(&kdqev->sem) ) 
return -ERESTRRTSYS 

注意 代码 中 对 down_interruptible 返回 值 的 检查 ; 如 果 它 返回 非 零 值 ， 则 说 明 操作 被 中 
断 。 这 种 情况 下 , 通常 要 做 的 工作 是 返回 -ERESTARTSYS。 在 见 到 这 个 返回 代码 后 ,内 
核 的 高 层 代 码 要 么 会 从 头 重新 启动 该 调用 ， 要 么 会 将 该 错误 返回 给 用 户 。 如 果 我 们 返 
同 -ERESTARTSYS， 则 必须 首先 撤销 已 经 做 出 的 任何 用 户 可 见 的 修改 , 这样， 系统 调用 
可 正确 重 试 。 如 果 无 法 撤销 这 些 操作 ， 则 应 该 返回 -EINTR。 


不 管 scull_write 是 否 能 够 成 功 完成 其 他 工作 , 它 都 必须 释放 信号 量 。 如 果 一 切 正常 , 执 
行 过 程 将 到 达 该 函数 的 最 后 儿 行 : 
out: 

upl&dev->sem}:; 

return retval; 
上 述 代 码 释 放 信 号 量 , 并 返回 被 调用 的 状态 值 。 scull_write 中 有 几 个 地 方 可 能 会 产生 错 
误 , 这 包括 内 存 分 配 失败 ,或 者 在 试图 从 用 户 空间 复制 数据 时 产生 故障 等 。 在 这 些 情 况 
下 ， 代 码 会 执行 goto out， 这 样 可 以 确保 正确 完成 清除 工作 。 


读 取 者 / 写 入 者 信号 量 


信号 量 对 所 有 的 调用 者 执行 互 斥 , 而 不 管 每 个 线程 到 底 想 做 什么 。 但是, 许多 任务 可 以 
划分 为 两 种 不 同 的 工作 类 型 : 一 些 任务 只 需要 读 取 受 保护 的 数据 结构 , 而 其 他 的 则 必须 
做 出 修改 。 人 允许 多 个 并 发 的 读 取 者 是 可 能 的 ,只 要 它们 之 中 没有 哪个 要 做 修改 。 这 样 做 
可 以 大 大 提高 性 能 , 因为 只 读 任务 可 并 行 完成 它们 的 工作 , 而 不 需要 等 待 其 他 读 取 者 退 
出 临界 区 。 


Linux 内 核 为 这 种 情形 提供 了 一 种 特殊 的 信号 量 类 型 , 称 为 “rwsem”( 或 者 "reader/writer 
semaphore, 读 取 者 / 写 人 者 信号 量 " )。 在 驱动 程序 中 使 用 rwsem 的 机 会 相对 较 少 , 但 偶 
尔 也 比较 有 用 。 


使 用 rwsem 的 代码 必须 包括 <linux/rwsem.h>。 读 取 者 / 写 和 者 信号 量 相关 的 数据 类 型 是 
struct rw_semaphore; 一 个 rwsem 对 象 必须 在 运行 时 通过 下 面 的 函数 显 式 地 初始 化 : 
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void init_rwsem(Struct rw_semaphore *Sem) ; 


新 初始 化 的 rwsem 可 用 于 其 后 出 现 的 任务 ( 读 取 者 或 写 人 者 )。 对 只 读 访问 ， 可 用 的 接 
口 如 下 : 
void down_read{struct rw_semaphore *sem); 


int down_read trylock(struct rw_semaphore *sem); 
void up_readl(struct rw_semaphore *sem); 


对 down_read 的 调用 提供 了 对 受 保护 资源 的 只 读 访 问 , 可 和 其 他 读 取 者 并 发 地 访问 。 注 
意 , down_read 可 能 会 将 调用 进程 置 于 不 可 中 断 的 休 有 卢 。down_read_trylock 不 会 在 读 取 
访问 不 可 获得 时 等 待 ; 它 在 授予 访问 时 返回 非 零 ， 其 他 情况 下 返回 零 。 注 意 ， 
down_read_trylock 的 用 法 和 其 他 大 多 数 内 核 函 数 不 同 ,其 他 函数 会 在 成 功 时 返回 零 . 由 
down_read 获得 的 rwsem 对 象 最 终 必 须 通 过 up_read 被 释放 。 


针对 写 人 者 的 接口 类 似 于 读 取 者 接口 : 


void down_write(struct rw_semaphore *sem); 

int down_write_trylock(struct rw_semaphore *sem); 
void up_write(struct rw_semaphore *sem); 

void downgrade_writelstruct rw_semaphore *sem}; 


down_write、down_write_trylock 和 wp_write 与 读 取 者 的 对 应 函数 行为 相同 ， 当 然 ， 它 


们 提供 的 是 写 和 访问 。 当 某 个 快速 改变 获得 了 写 人 者 锁 , 而 其 后 是 更 长 时 间 的 只 读 访问 
的 话 ， 我 们 可 以 在 结束 修改 之 后 调用 downgrade_write， 来 允许 其 他 读 取 者 的 访问 。 


一 个 rwsem 可 允许 一 个 写 入 者 或 无 限 多 个 读 取 者 拥有 该 信号 量 , 写 入 者 具有 更 高 的 优先 
级 ; 当 某 个 给 定 写 入 者 试图 进入 临界 区 时 , 在 所 有 写 入 者 完成 其 工作 之 前 , 不 会 允许 读 
取 者 获得 访问 。 如果 有 大 量 的 写 人 者 竞争 该 信号 量 , 则 这 种 实现 会 导致 读 取 者 “ 饿 死 ”， 
即 可 能 会 长 期 拒绝 读 取 者 的 访问 。 为 此 , 最 好 在 很 少 需要 写 访问 且 写 入 者 只 会 短期 拥有 
信号 量 的 时 候 使 用 rwsem。 


completion 


内 核 编程 中 常见 的 一 种 模式 是 , 在 当前 线程 之 外 初始 化 某 个 活动 , 然后 等 待 该 活动 的 结 
束 。 这 个 活动 可 能 是 ,创建 一 个 新 的 内 核 线程 或 者 新 的 用 户 空间 进程 、 对 一 个 已 有 进程 
的 某 个 请 求 , 或 者 某 种 类 型 的 硬件 动作 , 等 等 。 在 这 种 情况 下 ,我 们 可 以 使 用 信号 量 来 
同步 这 两 个 任务 ， 并 如 下 所 示 来 编写 代码 : 

struct semaphore sem; 

init_MUTEX_LOCKED (&Serm) ; 


start_external_task(&ksem); 
down (&sem); 
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当 外 部 任务 完成 其 工作 时 ， 将 调用 up (&sem) 。 


但 信号 量 并 不 是 适用 这 种 情况 的 最 好 工具 。 在 通常 的 使 用 中 , 试图 锁定 某 个 信号 量 的 代 
码 会 发 现 该 信号 量 几乎 总 是 可 用 ; 而 如 果 存 在 针对 该 信号 量 的 严重 竞争 , 性 能 将 受到 影 
响 ， 这 时 ,我 们 需要 重新 审视 锁定 机 制 。 因 此 ， 信 号 量 对 “可 用 ”情况 已 经 做 了 大 量 优 
化 。 然 而 ， 如 果 像 上 面 那样 使 用 信号 量 在 任务 完成 时 进行 通信 ， 则 调用 dow 的 线程 几 
乎 总 是 要 等 待 ,这样 性 能 也 同样 会 受到 影响 如果 信 号 量 在 这 种 情况 下 声明 为 自动 变量 ， 
则 也 可 能 受 某 个 ( 难 对 付 的 ) 竞 态 的 影响 。 在 某 些 情况 下 , 信号 量 可 能 在 调用 up 的 进程 
完成 其 相关 任务 前 消失 。 


上 述 考 虑 导致 2.4.7 版 内 核 中 出 现 了 “completion (完成 )” 接 口 。completion 是 一 种 轻 
量 级 的 机 制 ， 它 允许 一 个 线程 告诉 另 一 线程 某 个 工作 已 经 完成 。 为 了 使 用 completion， 
代码 必须 包含 <linux/completion.h>。 可 以 利用 下 面 的 接口 创建 completion: 


DECLARE_COMPLETION (my_completion) ; 


或 者 ， 如 果 必 须 动态 地 创建 和 初始 化 completion， 则 使 用 下 面 的 方法 : 


struct completion my_completion; 
WE oe et 
init_ completion(&my_completion}); 


要 等 待 completion、 可 进行 如 下 调用 : 
void wait_for_completion(struct completion *c); 
注意 , 该 函数 执行 一 个 非 中 断 的 等 待 。 如果 代 码 调用 了 wait_for_completion 且 没有 人 会 
完成 该 任务 ， 则 将 产生 一 个 不 可 杀 的 进程 ( 注 2)。 
另 一 方面 ， 实 际 的 completion 事件 可 通过 调用 下 面 函 数 之 一 来 触发 : 


void complete{(struct completion *c); 
void complete_alllstruct completion *c); 


这 两 个 函数 在 是 否 有 多 个 线程 在 等 待 相 同 的 completion 事 件 上 有 所 不 同 。 complete 只 会 
唤醒 一 个 等 待 线 程 , 而 complete_all 允许 唤醒 所 有 等 待 线程 。 在 大 多 数 情况 下 ， 只 会 有 
一 个 等 待 者 ， 因 此 这 两 个 函数 产生 相同 的 结果 。 


一 个 completion 通常 是 一 个 单 次 (one-shot) 设备 ; 也 就 是 说 ， 它 只 会 被 使 用 一 次 然后 
被 丢弃 。 但 是 ， 如 果 和 仔细 处 理 ，completion 结构 也 可 以 被 重复 使 用 。 如 果 没 有 使 用 
complete_all， 则 我 们 可 以 重复 使 用 一 个 completion 结构 ， 只 要 那个 将 要 触发 的 事件 是 





注 2; 在 本 书 编写 时 ， 添 加 可 中 断 版 本 的 补丁 已 进入 测试 周期 ， 但 尚未 合并 到 主线 内 核 。 
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明确 而 不 含糊 的 ， 就 不 会 带 来 任何 问题 。 但 是 ， 如 果 使 用 了 complete_all， 则 必须 在 重 
复 使 用 该 结构 之 前 重新 初始 化 它 。 下 面 这 个 宏 可 用 来 快速 执行 重新 初始 化 : 


INIT_COMPLETION{struct completion c}); 


作为 completion 的 使 用 方法 的 示例 , 可 参阅 示例 源 代码 中 的 compiete 模 块 。 该 模块 定义 
了 一 个 语义 非常 简单 的 设备 : 任何 试图 从 该 设备 读 取 的 进程 都 将 等 待 ( 使 用 
wait_for_completion)， 直 到 其 他 进程 写 人 该 设备 为 止 。 实 现 这 种 行为 的 代码 如 下 : 


DECLARE_COMPLETION (comp ) ; 


ssize_t complete_read (Struct file *filp, char _ user *buf, size_t count, 
loff_t *pos) 
{ 
printk (KERN_DEBUG "process %i {%s) going to sleep\n", 
current->pid, current~>comm); 
wait._for completion(&comp); 
Printk (KERN_DEBUG “awoken %i (%s)\n", current->pid, current->comm); 
return 07 /* EOF */ 
}) 


ssize_t complete_write (struct file *filp, const char 
count, 
loff_t *pos} 


user *buf, size_t 


{ 
printk (KERN_DEBUG "process %i (%s) awakening the readers...\n", 
current->pid, current->comm); 
complete{g&comp}); 
return count; /* 成 功 ， 以 免 重复 */ 
} 


同一 时 刻 有 多 个 进程 从 该 设备 “ 读 取 ”是 可 能 的 。 每 次 向 该 设备 的 写 人 将 导致 一 个 读 取 
操作 结束 ， 但 是 没 有 办 法 知道 会 是 哪个 进程 。 


completion 机制 的 典型 使 用 是 模块 退出 时 的 内 核 线程 终止 。 在 这 种 原型 中 , 某 些 驱动 程 
序 的 内 部 工作 由 一 个 内 核 线程 在 while {1) 循 环 中 完成 。 当 内 核准 备 清除 该 模块 时 ， 
exit 函数 会 告诉 该 线程 退出 并 等 待 completion。 为 了 实现 这 个 目的 ,内 核 包含 了 可 用 于 
这 种 线程 的 一 个 特殊 函数 : 


void complete_and exit (struct completion *c, long retval); 


自 旋 锁 


信号 量 对 互 斥 来 讲 是 非常 有 用 的 工具 ,但 它 并 不 是 内 核 提供 的 唯一 的 这 类 工具 。 相 反 ， 
大 多 数 锁定 通过 称 为 “ 自 旋 锁 (spinlock)” 的 机 制 实现 。 和 信号 量 不 同 ， 自 旋 锁 可 在 不 
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能 休眠 的 代码 中 使 用 , 比如 中 断 处 理 例 程 。 在 正确 使 用 的 情况 下 , 自 旋 锁 道 常 可 以 提供 
比 信 号 量 更 高 的 性 能 。 但 是 ， 自 旋 锁 也 带 来 了 其 他 一 组 不 同 的 使 用 限制 。 


在 概念 上 , 自 旋 锁 非 常 简单 。 一 个 自 旋 锁 是 一 个 互 斥 设备 , 它 只 能 有 两 个 值 :“ 锁 定 ” 和 
“解锁 ”。 它 通常 实现 为 某 个 整数 值 中 的 单个 位 ,希望 获得 某 特定 锁 的 代码 测试 相关 的 位 。 
如 果 锁 可 用 ， 则 “锁定 ”位 被 设置 ， 而 代码 继续 进入 临界 区 ; 相反 ， 如 果 锁 被 其 他 人 获 
得 , 则 代码 进入 忙 循环 并 重复 检查 这 个 锁 , 直到 该 锁 可 用 为 止 。 这 个 循环 就 是 自 旋 锁 的 
“ 自 旋 ”部 分 。 


当然 ， 自 旋 锁 的 真实 实现 要 比 上 面 描述 的 复杂 一 些 。“ 测 试 并 设置 ”的 操作 必须 以 原子 
方式 完成 这样 ,即使 有 多 个 线程 在 给 定时 间 自 旋 ， 也 只 有 一 个 线程 可 获得 该 锁 。 在 超 
线程 处 理 器 上 ， 还 必须 仔细 处 理 以 避免 死 锁 。 这 里 的 超 线程 处 理 器 可 实现 多 个 虚拟 的 
CPU， 它 们 共享 单个 处 理 器 核心 及 缓存 。 因 此 ,实际 的 自 旋 锁 实现 由 于 Linux 所 支持 的 
架构 的 不 同 而 不 同 。 但是， 核心 概念 对 所 有 系统 来 讲 是 一 样 的 ， 当 存在 自 旋 锁 时 ,等待 
执行 忙 循环 的 处 理 器 做 不 了 任何 有 用 的 工作 。 


自 旋 锁 最 初 是 为 了 在 多 处 理 器 系统 上 使 用 而 设计 的 。 只 要 考虑 到 并 发 问题 , 单 处 理 器 工 
作 站 在 运行 可 抢占 内 核 时 其 行为 就 类 似 于 SMP。 如 果 非 抢占 式 的 单 处 理 器 系统 进入 某 个 
锁 上 的 自 旋 状态 , 则 会 永远 自 旋 下 去 ; 也 就 是 说 , 没有 任何 其 他 线程 能 够 获得 CPU 来 释 
放 这 个 锁 。 出 于 对 此 原因 的 考虑 , 非 抢 占 式 的 单 处 理 器 系统 上 的 自 旋 锁 被 优化 为 不 做 任 
何事 情 ， 但 改变 IRQ 掩 码 状态 的 例 程 是 个 例外 。 因 为 抢占 ， 即 使 不 打算 在 SMP 系统 上 
运行 自己 的 代码 ， 我 们 仍然 需要 实现 正确 的 锁定 。 


自 旋 锁 API 介绍 
自 旋 锁 原 语 所 需要 包含 的 文件 是 <Linuxyspiniock.h>。 实 际 的 锁具 有 spinlock_ 上 上 类 型 。 
和 其 他 任何 数据 结构 类 似 , 一 个 自 旋 锁 必须 被 初始 化 。 对 自 旋 锁 的 初始 化 可 在 编译 时 通 
过 下 面 的 代码 完成 : 

spinlock_t my_lock = SPIN_LOCK_UNLOCKED; 
或 者 在 运行 时 ， 调 用 下 面 的 函数 : 

void spin_lock_init (spinlock_t *lock); 
在 进入 临界 区 之 前 ， 我 们 的 代码 必须 调用 下 面 的 函数 获得 需要 的 锁 : 


void spin_lock(spinlock_t *lock); 


注意 , 所 有 的 自 旋 锁 等 待 在 本 质 上 都 是 不 可 中 断 的 。 一 旦 调用 了 spin_lock, 在 获得 锁 之 
前 将 一 直 处 于 自 旋 状态 。 
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要 释放 已 经 获取 的 锁 ， 可 将 锁 传 递 给 下 面 的 函数 : 


void spin unlock(spinlock t *lock); 


还 有 其 他 许多 自 旋 锁 函 数 , 我 们 很 快 就 会 看 到 这 些 函 数 。 但 是 所 有 这 些 函数 都 离 不 开 上 
述 函 数 表达 的 核心 思想 .除了 锁定 和 释放 之 外 ,我 们 对 一 个 自 旋 锁 本 身 能 做 的 事情 太 少 。 
然而 , 在 使 用 自 旋 锁 上 有 一 些 必须 遵 守 的 规则 。 在 讲述 完整 的 自 旋 锁 接口 之 前 , 我 们 首 
先 花 点 时 间 来 了 解 一 下 这 些 规则 。 


自 旋 锁 和 原子 上 下 文 


假定 我 们 的 驱动 程序 获得 了 一 个 自 旋 锁 , 然后 在 临界 区 开始 了 它 的 工作 。 在 这 个 过 程 中 
间 ， 驱 动 程序 丢掉 了 处 理 器 。 也 许 它 调 用 了 一 个 函数 (比如 copy_from_user)， 这 个 函 
数 使 进程 进入 休 眼 状态。 或者, 也许 发 生 了 内 核 抢占 ,更 高 优先 级 的 进程 将 我 们 的 代码 
排挤 到 了 一 边 。 这 样 , 我 们 的 代码 将 拥有 这 个 自 旋 锁 , 并 且 在 可 预见 的 未 来 ， 它 不 会 释 
放任 何 时 间 。 如果 其 他 某 个 线程 试图 获得 相同 的 锁 , 在 最 好 的 情况 下 , 该 线程 要 等 待 (在 
处 理 器 上 自 旋 ) 很 长 时 间 。 在 最 坏 的 情况 下 ， 系 统 将 整个 进入 死 锁 状态 。 


大 多 数 读者 都 会 同意 应 该 避免 这 种 现象 。 因此 , 适用 于 自 旋 锁 的 核心 规则 是 : 任何 拥有 
自 旋 锁 的 代码 都 必须 是 原子 的 。 它 不 能 休眠 , 事实 上 , 它 不 能 因为 任何 原因 放弃 处 理 器 ， 
除了 服务 中 断 以 外 〈 某 些 情 况 下 此 时 也 不 能 放弃 处 理 器 )。 


内 核 抢 占 的 情况 由 自 旋 锁 代码 本 身 处 理 。 任 何 时 候 ， 只 要 内 核 代码 拥有 自 旋 锁 ， 在 相关 
处 理 器 上 的 抢占 就 会 被 禁止 。 甚 至 在 单 处 理 器 系统 上 , 也 必须 以 同样 的 方式 禁止 抢占 以 
避免 竞 态 。 这 就 是 为 什么 即使 我 们 不 打算 在 多 处 理 器 系统 上 运行 自己 的 代码 , 却 仍然 要 
正确 处 理 锁定 的 原因 。 


在 拥有 锁 的 时 候 避 免 休 眠 有 时 很 难 做 到 ; 许多 内 核 函数 可 以 休眠 , 而 且 此 行为 也 始终 没 
有 文档 来 很 好 地 说 明 。 在 用 户 空间 和 内 核 空间 之 间 复 制 数据 就 是 个 明显 的 例子 ; 在 复制 
继续 前 ,必需 的 用 户 空间 页 也 许 需要 从 磁盘 上 交换 进入 , 而 这 个 操作 明显 需要 休眠 。 需 
要 分 配 内 存 的 任何 操作 也 会 休眠 ， 比 如 kaiioc， 如 果 没 有 明确 告知 ， 它 会 在 等 待 可 用 
内 存 时 放弃 处 理 器 进入 休 了 根 。 休眠 可 发 生 在 许多 无 法 预期 的 地 方 ; 当 我 们 编写 需要 在 自 
旋 锁 下 执行 的 代码 时 ， 必 须 广 意 每 一 个 所 调用 的 函数 。 


还 有 另外 一 种 情形 : 我 们 的 驱动 程序 正在 执行 , 并 且 已 经 获得 了 一 个 锁 ， 这 个 锁 控制 着 
对 设备 的 访问 。 在 拥有 这 个 锁 的 时 候 , 设备 产生 了 一 个 中 断 , 它 导致 中 断 处 理 例 程 被 调 
用 。 而 中 断 处 理 例 程 在 访问 设备 之 前 , 也 要 获得 这 个 锁 。 在 中 断 处 理 例 程 中 拥有 锁 是 合 
法 的 , 这 也 是 为 什么 自 旋 锁 操 作 不 能 休眠 的 一 个 原因 。 但 是 ， 当 中断 例 程 在 最 初 拥有 锁 
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的 代码 所 在 的 处 理 器 上 运行 时 , 会 发 生 什么 情况 呢 ? 在 中 断 例 程 自 旋 时 , 非 中 断代 码 将 
没有 任何 机 会 来 释放 这 个 锁 。 处 理 器 将 永远 自 旋 下 去 。 


为 了 避免 这 种 陷阱 ， 我 们 需要 在 拥有 自 旋 锁 时 禁止 中 断 〈 仅 在 本 地 CPU 上 )。 用 于 禁止 
中 断 的 自 旋 锁 函数 有 许多 变种 (我 们 将 在 下 一 小 节 看 到 这 些 函 数 )。 但 是 ， 对 中 断 的 完 
整 讨 论 将 在 第 十 章 中 展开 。 


自 旋 锁 使 用 上 的 最 后 一 个 重要 规则 是 , 自 旋 锁 必 须 在 可 能 的 最 短 时 间 内 拥有 。 拥有 自 旋 
锁 的 时 间 越 长 , 其 他 处 理 器 不 得 不 自 旋 以 等 待 释放 该 自 旋 锁 的 时 间 就 越 长 . 而 它 不 得 不 
永远 自 旋 的 可 能 性 就 越 大 。 长 的 锁 拥 有 时 间 将 阻止 对 当前 处 理 器 的 调度 , 这 意味 着 更 高 
优先 级 的 进程 (真正 应 该 获得 CPU 的 进程 ) 不 得 不 等 待 。 为 了 降低 内 核 的 延迟 (进程 等 
待 调度 的 时 间 ), 内 核 开 发 者 在 2.5 开 发 系列 版 本 中 已 经 花费 了 大 量 精力 。 而 一 个 编写 得 
不 好 的 驱动 程序 将 因为 过 长 时 间 拥 有 自 旋 锁 而 抹 黎 这 种 努力 .为 了 避免 制造 这 种 类 型 的 
问题 ， 请 襄 记 拥有 锁 的 时 间 越 短 越 好 。 


自 旋 锁 函数 

我 们 已 经 看 到 两 个 操作 自 旋 锁 的 函数 :spin_lock 和 spin_unlock。 但 是 ， 还 有 其 他 一 些 
具有 类 似 名 称 和 用 途 的 函数 。 这 里 我 们 将 给 出 完整 的 自 旋 锁 函 数 。 对 自 旋 锁 API 的 彻 底 
理解 需要 首先 理解 中 断 处 理 以 及 相关 概念 ， 因 此 ， 这 里 的 讨论 也 许 会 让 读者 感到 迷惑 。 


锁定 一 个 自 旋 锁 的 函数 实际 有 四 个 : 


void spin_lock(spinlock t *lock); 

void spin. lock_irqsave(spinlock_t *lock, unsigned long flags)}; 

void spin_lock_irql(spinlock_t *lock); 

void spin_lock bh{spinlock_t *lock) 
我 们 已 经 知道 了 spin_lock 的 功能 。 spin_lock_irqsave 会 在 获得 自 旋 锁 之 前 禁止 中 断 ( 只 
在 本 地 处 理 器 上 ), 而 先前 的 中 断 状态 保存 在 £1lags 中 。 如 果 我 们 能 够 确保 没有 任何 其 
他 代码 禁止 本 地 处 理 器 的 中 断 (或 者 换 句 话说 , 我 们 能 够 确保 在 释放 自 旋 锁 时 应 该 启用 
中 断 ), 则 可 以 使 用 spin_lock_irqg, 而 无 需 跟踪 标志 。 最后, spin_lock_bh 在 获得 锁 之 前 
禁止 软件 中 断 ， 但 是 会 让 硬件 中 断 保持 打开 。 


如 果 我 们 有 一 个 自 旋 锁 , 它 可 以 被 运行 在 (硬件 或 软件 ) 中 断 上 下 文中 的 代码 获得 ， 则 
必须 使 用 某 个 禁止 中 断 的 spin_lock 形式 ， 因 为 使 用 其 他 的 锁定 函数 迟早 会 导致 系统 死 
锁 。 如 果 我 们 不 会 在 硬件 中 断 处 理 例 程 中 访问 自 旋 锁 ， 但 可 能 在 软件 中 断 〈 例 如 ， 以 
tasklet 的 形式 运行 的 代码 , 第 七 章 讨论 该 主 题 ) 中 访问 ， 则 应 该 使 用 spin_lock_bh， 以 
便 在 安全 地 避免 死 锁 的 同时 还 能 服务 硬件 中 断 。 
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释放 自 旋 锁 的 方法 也 有 四 种 ， 严 格 对 应 于 获取 自 旋 锁 的 那些 函数 : 


void spin _ unlock{spinlock_t *lock); 

void spin_unlock irqrestorelspinlock_t *lock, unsigned long flags}; 

void spin unlock irql(lspinlock t *lock); 

void spin unlock bh{spinlock_t *lock); 
每 个 spin_unlock 的 变种 都 会 撤销 对 应 的 spin_ilock 函数 所 做 的 工作 。 传 递 到 
spin_unlock_irqrestore 的 flags 参数 必须 是 传递 给 spin_lock_irqsave 的 同一 个 变量 。 
我 们 还 必须 在 同一 个 防 数 中 调用 spin_iock_irqsave 和 spin_unlock_irqrestore, 人 否则 代码 
可 能 在 某 些 架 构 上 出 现 问题 。 


还 有 如 下 非 阻塞 的 自 旋 锁 操作 : 


int spin_trylock{spinlock_t *1ock) : 

int spin_trylock_bh(spinlock_t *1ock) 
这 两 个 函数 在 成 功 ( 即 获得 自 旋 锁 ) 时 返回 非 零 值 ， 否 则 返回 零 。 对 禁止 中 断 的 情况 ， 
没有 对 应 的 “try” 版 本 。 


读 取 者 / 写 入 者 自 旋 锁 


内 核 提供 自 旋 锁 的 读 取 者 / 写 人 者 形式 , 这 种 自 旋 锁 和 本 章 早先 介绍 过 的 读 取 者 / 写 入 者 
信和 号 量 非常 相似 。 这 种 锁 允 许 任 意 数 量 的 读 取 者 同时 进入 临界 区 , 但 写 人 者 必须 互 斥 访 
问 。 读 取 者 / 写 人 者 锁具 有 rwlock_t 类 型 , 在 <linux/spinlock.h> 中 定义 。 我们 可 以 用 
下 面 的 两 种 方式 声明 和 初始 化 它们 : 


rwlock_t my_rwlock = RW_LOCK_UNLOCKED; /* Static way */ 


rwlock_t my_rwlock; 
rwlock_init(g&my_ rwlock); /* Dynamic way */ 


可 用 函数 的 清单 现在 看 起 来 应 该 非常 熟悉 。 对 读 取 者 来 讲 ， 可 使 用 如 下 函数 : 


void read_lock{rwlock_t *lock); 

void read_lock_irgsave{rwlock_t *lock, unsigned long flags}; 
void read lock_irq(rwlock_t *lock); 

void read lock_bhl(rwlock t *lock); 


void read_unlock (rwlock 上 *lock); 
void read _ unlock irgrestore{rwlock 上 *lock, unsigned long flags); 


void read _ unlock_irqlrwlock_t *lock); 
void read unlock_bh{rwlock_t *lock); 


有 意思 的 是 ， 这 里 并 没有 read_trylock 函数 可 用 。 
用 于 写 人 者 的 函数 类 似 于 读 取 者 ， 如 下 所 示 : 
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void write_lock{rwlock 上 *lock); 

void write_ lock irqsave(rwlock_t *lock, unsigned long flags); 
void write_lock_irqgq(rwlock_t *lock); 

void write_lock_bh(rwlock t *lock); 

int write trylock(rwlock t *lock); 


void write_unlock (rwlock_t *lock); 

void write_ unlock_irqrestore(rwlock t *lock, unsigned long flags); 
void write unlock _irq{rwlock_t *lock); 

void write_unlock_bh(rwlock_ 上 *lock); 


和 rwsem 类 似 , 读 取 者 / 写 入 者 锁 可 能 造成 读 取 者 饥饿 。 这 种 情况 几乎 不 成 问题 , 但 是 
如 果 对 锁 的 竞争 导致 饥 俄 ， 性 能 会 变 得 很 低 。 


锁 陷 阱 


多 年 使 用 锁 的 经 验 (以 及 那些 早 于 Linux 的 出 现 就 已 获得 的 经 验 ) 说 明 ， 我 们 很 难 驾 轻 
就 熟地 使 用 锁 。 并 发 的 管理 本 来 就 非常 刺 手 , 而 许多 使 用 方法 都 可 能 导致 错误 。 在 这 一 
小 节 中 ， 我 们 将 快速 浏览 可 能 导致 错误 的 东西 。 


不 明确 的 规则 


如 上 所 述 , 恰当 的 锁定 模式 需要 清晰 和 明确 的 规则 。 当 我 们 创建 了 一 个 可 被 并 行 访问 的 
对 象 时 , 应 该 同时 定义 用 来 控制 访问 的 锁 。 锁 定 模式 必须 在 一 开始 就 安排 好 ,否则 其 后 
的 改进 将 会 非常 困难 。 先 期 的 时 间 投入 通常 会 在 调试 阶段 获得 收益 。 


在 编写 代码 时 肯定 会 遇 到 几 个 函数 ， 它 们 均 需 要 访问 某 个 受 特定 锁 保护 的 结构 。 这 时 ， 
我 们 必须 小 心 : 如 果 某 个 获得 锁 的 函数 要 调用 其 他 同样 试图 获取 这 个 锁 的 函数 , 我 们 的 
代码 就 会 死 锁 。 不 论 是 信号 量 还 是 自 旋 锁 , 都 不 允许 锁 拥 有 者 第 二 次 获得 这 个 锁 ; 如 果 
试图 这 么 做 ， 系 统 将 挂 起 。 


为 了 让 锁定 正确 工作 , 则 不 得 不 编写 一 些 函 数 , 这 些 函 数 假定 调用 者 已 经 获取 了 相关 的 
锁 。 通常 ,内 部 的 静态 函数 可 通过 这 种 方式 编写 , 而 提供 给 外 部 调用 的 函数 则 必须 显 式 
地 处 理 锁定 。 在 编写 那些 假定 调用 者 已 处 理 了 锁定 的 内 部 函数 时 , 我 们 自己 应 该 显 式 地 
说 明 这 种 假定 。 因 为 如 果 在 儿 个 月 之 后 再 回头 来 看 这 些 代 码 时 , 我 们 会 发 现 很 难 记 清 在 
调用 某 个 特定 函数 时 是 否 需要 拥有 锁 。 


在 scul! 的 例子 中 , 我 们 所 作 的 设计 决策 是 : 由 系统 调用 直接 调用 的 那些 函数 均 要 获得 信 
号 量 , 以 便 保护 要 访问 的 设备 结构 。 而 其 他 的 内 部 函数 只 会 由 其 他 的 scull 函数 调用 , 则 
假定 信号 量 已 经 被 正确 获得 。 
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锁 的 顺序 规则 


使 用 大 量 锁 的 系统 (内核 就 是 这 样 一 个 系统 ) 中 ,代码 通常 需要 一 次 拥有 多 个 锁 。 如 果 
某 种 类 型 的 计算 必须 使 用 两 个 不 同 的 资源 来 完成 ,而 每 个 资源 都 有 自己 的 锁 , 则 通常 没 
有 其 他 方法 来 同时 获取 这 两 个 锁 。 


但 是 ,拥有 多 个 锁 可 能 很 危险 。 如 果 我 们 有 两 个 锁 , 分别 是 Lock!l 和 Lock2 ， 而 代码 需 
要 同时 拥有 这 两 个 锁 , 这 时 就 有 可 能 进入 潜在 的 死 锁 。 想 像 某 个 线程 锁定 了 Lock1， 而 
其 他 线程 同时 锁定 了 ZLock2。 这 时 ， 每 个 线程 都 试图 获得 另外 的 那个 锁 ， 于 是 两 个 线程 
都 将 死 锁 。 


对 于 这 个 问题 的 解决 办 法 通常 比较 简单 : 在 必须 获取 多 个 锁 时 , 应 该 始终 以 相同 的 顺序 
获得 。 只 要 遵守 这 个 约定 ,如 上 所 述 的 那 种 死 锁 就 可 以 避免 。 但 是 ,下 面 的 锁 顺 序 规 则 
说 起 来 要 比 做 起 来 容易 。 这 类 规则 基本 上 不 会 出 现在 某 个 实际 的 系统 中 。 通 常 ， 最 好 的 
办 法 是 了 解 其 他 代码 的 做 法 。 


有 帮助 的 规则 有 两 个 。 如 果 我 们 必须 获得 一 个 局 部 锁 ( 比如 一 个 设备 锁 )， 以 及 一 个 属 
于 内 核 更 中 心 位 置 的 锁 , 则 应 该 首先 获取 自己 的 局 部 锁 。 如 果 我 们 拥有 信号 量 和 自 旋 锁 
的 组 合 , 则 必须 首先 获得 信号 量 ; 在 拥有 自 旋 锁 时 调用 down ( 可 导致 休眠 ) 是 个 严重 的 
错误 的 。 当 然 ， 最 好 的 办 法 是 避免 出 现 需要 多 个 锁 的 情况 。 


细 粒 度 锁 和 粗 粒 度 锁 的 对 比 


第 一 个 支持 多 处 理 器 系统 的 Linux 内 核 是 2.0, 其 中 有 且 只 有 一 个 锁 。 这 个 大 的 内 核 锁 会 
让 整个 内 核 进入 一 个 大 的 临界 区 , 而 只 有 一 个 CPU 可 以 在 任意 给 定时 间 执 行内 核 代码 。 
这 种 锁 机 制 足 以 解决 并 发 问题 ,从 而 允许 内 核 开发 者 解决 那些 在 支持 SMP 时 过 到 的 所 有 
问题 。 但 是 这 种 机 制 并 不 具有 良好 的 伸缩 性 。 即 使 是 只 有 两 个 处 理 器 的 系统 ,也 要 在 等 
待 大 的 内 核 锁 时 花费 大 量 时 间 。 具 有 四 个 处 理 器 的 系统 的 性 能 甚至 远 远 比 不 上 四 台独 立 
的 机 器 。 


因此 , 其 后 的 内 核 版 本 包含 了 更 细 粒 度 的 锁 。 在 2.2 中 , 一 个 自 旋 锁 控 制 对 块 1O 子 系统 
的 访问 , 而 其 他 的 自 旋 锁 用 于 网 络 。 现 代 的 内 核 可 包含 数 千 个 锁 , 每 个 锁 保护 一 个 小 的 
资源 。 这 种 类 型 的 细 粒 度 锁具 有 良好 的 伸缩 性 ; 它 允 许 每 个 处 理 器 在 执行 特定 任务 时 无 
需 和 其 他 处 理 器 正在 使 用 的 锁 竞 争 。 因 此 ， 很 少 有 人 会 想念 早期 的 大 内 核 锁 〈 注 3)。 





注 3: 尽管 目前 这 个 镇 在 内 核 中 已 很 少 使 用 ， 但 仍然 存在 于 2.6 中 。 如 果 读 者 不 小 心 使 用 了 
lock_kernel 调用 ， 就 会 看 到 这 个 大 的 内 核 锁 。 但 我 们 不 应 该 在 新 代码 中 使 用 这 个 锁 。 
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然而 ， 细 粒度 锁 本 身 有 其 成 本 。 在 包含 数 千 个 锁 的 内 核 中 ， 为 了 执行 某 个 特定 的 操作 ， 
我 们 很 难 确切 知道 需要 锁定 哪些 锁 , 以 及 以 什么 样 的 顺序 锁 上 它们 。 而 锁定 相关 的 缺陷 
又 很 难 发 现 , 这 样 , 更 多 的 锁 导 致 锁 缺 陷 在 内 核 中 危险 草 延 的 机 会 大 大 增加 。 细 粒度 的 
锁 将 带 来 某 种 程度 的 复杂 性 , 并 且 随 着 时 间 的 流逝 ,对 内 核 的 可 维护 性 产生 了 很 大 的 副 
作用 。 


设备 有 驱 动 程序 中 的 锁 通 常 相对 直接 , 我 们 可 以 用 单个 锁 来 处 理 所 有 的 事情 , 或 者 可 以 为 
我 们 管理 的 每 个 设备 建立 一 个 锁 。 作 为 通常 的 规则 ， 我 们 应 该 在 最 初 使 用 粗 粒 度 的 锁 ， 
除非 有 真正 的 原因 相信 竞争 会 导致 问题 。 我 们 需要 抑制 自己 过 早 考虑 优化 的 欲望 , 因为 
真正 的 性 能 约束 通常 出 现在 非 预期 的 情况 下 。 


如 果 我 们 的 确 怀疑 锁 竞 争 导 致 性 能 下 降 ， 则 可 以 使 用 lockmeter 工具 。 这 个 补丁 《可 在 
http:l1oss.sgi.comiprojects/lockmeter/ 找 到 ) 可 度量 内 核 花费 在 锁 上 的 时 间 。 通 过 查看 它 
的 输出 报告 ， 我 们 可 以 很 快 确定 锁 竞 争 是 否 是 问题 所 在 。 


除了 锁 之 外 的 办 法 


Linux 内 核 提 供 了 大 量 有 用 的 锁 原 语 , 它们 却 让 内 核 步 用 中 咒 ,但 是 如 我 们 所 看 到 的 , 锁 
机 制 的 设计 和 实现 本 身 并 没有 缺陷 。 通常 , 除了 信号 量 或 者 自 旋 锁 外 我 们 别 无 选择 ， 
为 它们 是 完成 某 些 工作 的 唯一 选择 。 但 是 在 某 些 情形 下 , 原子 的 访问 可 以 不 需要 完整 的 
锁 。 本 节 将 讨论 不 使 用 锁 的 方法 。 


免 锁 算法 


有 些 时 候 ， 我 们 可 以 重新 构造 算法 ,以 从 根本 上 避免 使 用 锁 。 大 量 的 读 取 者 / 写 人 者 情 
况 一 一 如 果 只 有 一 个 写 人 者 一 一 就 可 以 用 这 种 方法 来 设计 我 们 的 算法 。 如 果 写 人 者 看 
到 的 数据 结构 和 读 取 者 看 到 的 始终 一 致 ， 就 有 可 能 构造 一 种 免 锁 的 数据 结构 。 


经 常用 于 免 锁 的 生产 者 /消费 者 任务 的 数据 结构 之 一 是 循环 缓冲 区 (circular buffer)。 在 
这 个 算法 中 ， 一 个 生产 者 将 数据 放 和 人 数组 的 结尾 ， 而 消费 者 从 数组 的 另 一 端 移 走 数据 。 
在 达到 数组 尾部 的 时 候 , 生产 者 绕 回 到 数组 的 头 部 。 因 此 , 一 个 循环 缓冲 区 需要 一 个 数 
组 以 及 两 个 索引 值 , 一 个 用 于 下 一 个 要 写 入 新 值 的 位 置 , 而 另 一 个 用 于 应 下 一 个 从 缓冲 
区 中 移 走 值 的 位 置 。 


如 果 仔 细 实 现 , 在 没有 多 个 生产 者 或 消费 者 的 情况 下 , 循环 缓冲 区 不 需要 锁 。 生 产 者 是 
唯一 允许 修改 写 入 索引 以 及 该 索引 指向 的 数组 位 置 的 线程 .只 要 写 人 者 在 更 新 写 人 索引 
之 前 将 新 的 值 保 存 到 缓冲 区 , 则 读 取 者 将 始终 看 到 一 致 的 数据 结构 。 同 时 ， 读 取 者 是 唯 
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一 可 访问 读 取 索 引 以 及 该 索引 指向 位 置 的 数据 的 线程 .只 要 小 心地 确保 两 个 指针 不 要 互 
相 重 登 ,生产 者 和 消费 者 可 以 在 没有 竞 态 的 情况 下 访问 该 缓冲 区 。 


图 5-1 表示 了 填充 循环 缓冲 区 时 的 多 个 状态 。 当 读 取 和 写 人 指针 相等 时 ， 表 明 缓冲 区 是 
空 的 ， 而 只 要 写 人 指针 马上 要 跑 到 读 取 指针 的 后 面 时 《 需 遵 慎 处 理 交换 ! )， 就 表明 组 
冲 区 已 满 。 仔 细 编 程 ， 就 可 以 在 没有 锁 的 情况 下 使 用 该 缓冲 区 。 








填 满 的 缓冲 区 





5-1; 循环 缓冲 区 


循环 缓冲 区 的 使 用 在 设备 驱动 程序 中 相当 普遍 。 特别 是 网 络 适 配器 , 经 常 使 用 循环 缓冲 
区 和 处 理 器 交换 数据 (数据 包 )。 注 意 ， 在 2.6.10 中 ， 内 核 有 一 个 通用 的 循环 缓冲 区 实 
现 ， 有 关 其 使 用 可 参阅 <linux/kfifo.h>。 


原子 变量 


有 了 时, 共享 的 资源 可 能 恰好 是 一 个 简单 的 整数 值 。 假定 我 们 的 驱动 程序 维护 着 一 个 共享 
变量 n_op, 该 变量 的 值 表明 有 多 少 个 设备 操作 正在 并 发 地 执行 。 通 常 ， 即 使 下 面 的 简 
单 操作 也 需要 锁定 : 


nNn_op+t++; 


某 些 处 理 器 可 以 以 原子 的 方式 执行 这 类 增加 , 但 我 们 不 能 指望 它 ,但 话 又 说 回来 , 完整 
的 锁 机 制 对 一 个 简单 的 整数 来 讲 却 显得 有 些 浪费 。 针对 这 种 情况 , 内 核 提供 了 一 种 原子 
的 整数 类 型 ， 称 为 atomic_t， 定义 在 <asm/atomic.h> 中 。 


一 个 atomic_ 上 变量 在 所 有 内 核 支持 的 架构 上 保存 一 个 int 值 。 但 是 , 由 于 某 些 处 理 器 
上 这 种 数据 类 型 的 工作 方式 有 些 限 制 ， 因 此 不 能 使 用 完整 的 整数 范围 ; 也 就 是 说 ， 在 
atomic_t 变 量 中 不 能 记录 大 于 24 位 的 整数 。 下 面 针 对 这 种 类 型 的 操作 在 SMP 计 算 机 的 
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所 有 处 理 器 上 都 确保 是 原子 的 。 这 种 操作 的 速度 非常 快 , 因为 只 要 可 能 , 它们 就 会 被 纺 
译 成 单个 机 器 指令 。 


void atomic_set (atomic_t *v, int i); 

atomic_t v = ATOMIC_INIT(0); 
和 将 原子 变量 v 的 值 设置 为 整数 值 i。 也 可 以 在 编译 时 利用 ATOMIC_INIT 宏 来 初始 
化 原子 变量 的 值 。 


int atomic readl(latomic_t *v); 
返回 Vv 的 当前 值 。 
void atomic add(int i, atomic_t *v); 
将 i 累加 到 v 指 向 的 原子 变量 。 返回 值 是 void, 这 是 因为 返回 新 的 值 将 带 来 额外 
的 成 本 ， 而 大 多 数 情 况 下 设 有 必要 知道 累加 后 的 值 。 
void atomic_sublint i, atomic_t *v); 
从 *v 中 减 去 i。 
void atomic _inc(atomic_t *v); 
void atomic_dec(atomic_t *v); 


增加 或 缩减 一 个 原子 变量 。 


int atomic_inc_and_test (atomic_t *v); 

int atomic_dec_and test(atomic_t *V) ; 

int _ atomic_sub_and_test(int i, atomic_t *v); 
执行 特定 的 操作 并 测试 结果 ; 如 果 在 操作 结束 后 ， 原 子 值 为 0， 则 返回 值 为 true; 
否则 返回 值 为 false。 注 意 ,不 存在 atomic_add_and_rest 函数 。 

int atomic_add_negative(int i, atomic_t *V) ; 


将 整数 变量 i 累加 到 v。 返 回 值 在 结果 为 负 时 为 true， 否 则 为 false。 


int atomic_add return{int i, atomic_t *v); 
int atomic_sub_return(int i, atomic_t *v); 
int atomic_inc_return(latomic_t *v); 
int atomic dec_return(atomic_t *v); 


类 似 于 atomic_add 及 其 变种 ， 例 外 之 处 在 于 这 些 函数 会 将 新 的 值 返 回 给 调用 者 。 


先前 说 过 , atomic_t 数 据 项 必须 只 能 通过 上 述 函 数 来 访问 。 如 果 读 者 将 原子 变量 传递 
给 了 需要 整 型 参数 的 函数 ， 则 会 遇 到 编译 错误 。 


还 要 记 住 ,只 有 原子 变量 的 数目 是 原子 的 ,atomic_t 变 量 才 能 工作 。 需 要 多 个 atomic_t 
变量 的 操作 ， 仍 然 需 要 某 种 类 型 的 锁 。 考 虑 下 面 的 代码 : 
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atomic_sublamount, &first_atomic}); 
atomic_add{amount, &second_atomic); 


在 amount 已 经 从 第 一 个 原子 值 中 减 去 . 到 还 没有 增加 到 第 二 个 原子 值 之 间 , 会 有 一 小 
段 时 间 。 如 果 可 能 在 这 两 个 操作 之 间 运 行 的 代码 会 导致 问题 的 发 生 , 则 必须 使 用 某 种 形 
式 的 锁 。 


位 操作 

atomic_t 类 型 对 执行 整数 算术 来 讲 比 较 有 用 。 但 是 当 需 要 以 原子 形式 来 操作 单个 的 位 
时 , 这 种 类 型 就 无 法 派 上 用 场 了 。 为 了 实现 位 操作 ， 内 核 提供 了 一 组 可 原子 地 修改 和 视 
试 单个 位 的 函数 。 因 为 整个 操作 发 生 在 单个 步骤 中 ， 因此, 不 会 受到 中 断 (或 者 其 他 处 
理 器 ) 的 干扰 。 


原子 位 操作 非常 快 ， 只 要 底层 硬件 允许 , 这 种 操作 就 可 以 使 用 单个 机 器 指令 来 执行 并 
有 不 需要 禁止 中 断 。 这 些 函 数 依赖 于 具体 的 架构 、 因 此 在 <asm/bitops.h> 中 声明 。 即 使 
是 在 SMP 计算 机 上 上， 这些 函 数 均 可 确保 为 原子 的 ， 因 此 能 提供 跨 处 理 器 的 一 致 性 。 


不 幸 的 是 , 这 些 函 数 使 用 的 数据 类 型 也 是 依赖 于 具体 架构 的 。 nr 参数 (用 来 描述 要 操作 
的 位 ) 通常 被 定义 为 int， 但 在 少数 架构 上 被 定义 为 unsigned long。 要 修改 的 地 址 
通常 是 指向 unsigned long 的 指针 ， 但 在 某 些 架构 上 却 使 用 voia * 来 代替 。 


可 用 的 位 操作 如 下 : 


void set_bit(nr, void *addr); 
设置 addr 指向 的 数据 项 的 第 nr 位 。 
void clear bit(nr, void *addr)}; 
清除 addr 指向 的 数据 项 的 第 nr 位， 其 原 诸 和 set_bit 相反 。 
void change_bit{(nr, void *addr); 
切换 指定 的 位 。 
test_bit (nr, void *addr); 
该 函数 是 唯一 一 个 不 必 以 原子 方式 实现 的 位 操作 函数 ， 它 仅仅 返回 指定 位 的 当前 
值 。 
int test_and_ set,_bit(nr, void *addr); 
int test_and clear_bit(nr, void *adGr) ; 
int test_and change bit (nr, void *addr); 
像 前 面 列 出 的 函数 一 样 具有 原子 化 的 行为 ， 例 外 之 处 是 它 同 时 返回 这 个 位 的 先前 
值 。 
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当 这 些 函 数 用 来 访问 和 修改 一 个 共享 标志 时 , 除了 调用 它们 之 外 , 我 们 不 需 做 其 他 任何 
捉 情 一 一 它们 会 以 原子 方式 执行 操作 。 另 一 方面 ， 使 用 位 操作 来 管理 一 个 锁 变 量 以 控 
制 对 某 个 共享 变量 的 访问 , 则 相对 复杂 并 值得 讨论 , 大 多 数 现代 的 代码 不 会 以 这 种 方式 
使 用 位 操作 ， 但 类 似 下 面 的 代码 仍 在 内 核 中 存在 。 


要 以 原子 方式 获得 锁 并 访问 某 个 共享 数据 项 的 代码 ， 可 使 用 test_and_set_bit 或 者 
test_and_clear_bit。 常见 的 实现 方法 如 下 所 列 , 该 方法 假定 锁 就 是 addr 地址 上 的 第 nr 
位 。 它 还 假定 当 锁 在 零 时 空间 ， 而 在 非 零 时 人 忙 。 
/* 试 着 设置 锁定 */ 
while (test_and set_bit(nr, addr) != 0) 
wait_for a while{); 


/* 完成 自己 的 工作 */ 
/* 释放 锁 ， 并 检查 */ 


if (test_and clear bit(nr, addr) = = 0) 
something_went_wrong(); /* 已 经 被 释放 : 错误 */ 
如 果 读 者 通读 内 核 源 代码 , 将 发 现 以 上 述 方法 工作 的 代码 。 然而 , 新 代码 应 该 使 用 自 旋 
锁 , 因为 自 旋 锁 已 被 很 好 调试 , 并 且 能 够 处 理 类 似 中 断 和 内 核 抢 占 这 样 的 问题 , 而 阅读 
你 代码 的 其 他 人 也 不 必 花 功夫 来 理解 代码 的 意图 。 


seqlock 


2.6 内 核 包 含有 两 个 新 的 机 制 ， 可 提供 对 共享 资源 的 快速 、 免 锁 访问 。 当 要 保护 的 资源 
很 小 ,很 简单 、 会 频繁 被 访问 而 且 写 入 访问 很 少 发 生 且 必须 快速 时 ,就 可 以 使 用 seqlock。 
从 本 质 上 讲 , seqlock 会 允许 读 取 者 对 资源 的 自由 访问 , 但 需要 读 取 者 检查 是 否 和 写 人 者 
发 生 冲突 , 当 这 种 冲突 发 生 时 , 就 需要 重 试 对 资源 的 访问 。seqlock 通 常 不 能 用 于 保护 包 
含有 指针 的 数据 结构 , 因为 在 写 人 者 修改 该 数据 结构 的 同时 , 读 取 者 可 能 会 追随 一 个 无 
效 的 指针 。 


seqlock 在 <linux/seqlock.h> 中 定义 。 通 常用 于 初始 化 seqlock (具有 seqlock_t 类型) 
的 方法 有 如 下 两 种 : 
seqlock tt lockl = SEQLOCK_UNLOCKED; 


seqlock_t lock2; 
seqlock_init (glock2); 


读 取 访问 通 过 获得 一 个 (无 符号 的 ) 整数 顺序 值 而 进入 临界 区 。 在 退出 时 ,该 顺序 值 会 
和 当前 值 比较 ; 如 果 不 相等 , 则 必须 重 试 读 取 访问 。 其 结果 是 , 读 取 者 代码 会 如 下 编写 : 


unsigned int seqg; 
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seq = read_seqbegin(&the_lock)， 
/* 完成 需要 做 的 工作 */ 
} while read_seqretry{&the_lock, seq); 
这 种 类 型 的 锁 通 常用 于 保护 某 种 类 型 的 简单 计算 , 这 种 计算 需要 多 个 一 致 的 值 。 如 果 计 
算 结束 时 发 现 已 发 生 并 发 的 修改 ， 则 可 以 简单 丢弃 结果 并 重新 计算 。 


如 果 在 中 断 处 理 例 程 中 使 用 seqlock， 则 应 该 使 用 IRQ 安全 的 版 本 : 


unsigned int read_seqbegin irqsave(seqlock_t *1lock, 
unsigned long flags); 
int read seqretry_irqrestore(seqlock_t *lock, unsigned int segq, 
unsigned long flags); 


写 人 者 必须 在 进入 由 seqlock 保护 的 临界 区 时 获得 一 个 互 斥 锁 。 为 此 ， 需 调用 下 面 的 函 
数 : 

void write_seqlock(seqlock_t *lock); 
写 人 锁 使 用 自 旋 锁 实现 , 因此 自 旋 锁 的 常见 限制 也 适用 于 写 人 锁 。 做 如 下 调用 可 释放 该 
锁 : 

void write_sequnlock (seqlock_t *lock); 


因为 自 旋 锁 用 来 控制 写 人 访问， 因此 自 旋 锁 的 常见 变种 都 可 以 使 用 ， 它 们 是 : 


void write seqlock irqsave(seqlock_t *lock, unsigned long flags); 
void write_seqlock_irqlseqlock_t *lock); 
void write_seqlock_bh(seqlock_E *lock); 


void write_sequnlock_irqrestore(seqlock_t *lock, unsigned long flags); 


void write_sequnlock_irqlseqlock_t *lock); 
void write_sequnlock_bh{seqlock t *lock); 


如 果 write_tryseqlock 可 以 获得 自 旋 锁 ， 它 也 会 返回 非 零 值 。 


读 取 一 复制 一 更 新 

读 取 - 复制 -更 新 (read-copy-update，RCU) 也 是 一 种 高 级 的 互 斥 机 制 ， 在 正确 的 条 
件 下 , 也 可 获得 高 的 性 能 。 它 很 少 在 驱动 程序 中 使 用 , 但 很 知名 ,因此 我 们 必须 做 一 些 
基本 的 了 解 。 对 RCU 算 法 的 细节 感 兴趣 的 读者 , 可 阅读 由 RCU 的 发 明 者 发 布 的 白皮书 


( http://www.rdrop.com/userslpaulmckirclocklintroirclock_intro.html )s 


RCU 对 它 可 以 保护 的 数据 结构 做 了 一 些 限定 , 它 针对 经 常 发 生 读 取 而 很 少 写 入 的 情形 做 
了 优化 ,被 保护 的 资源 应 该 通过 指针 访问 ,而 对 这 些 资源 的 引用 必须 仅 由 原子 代码 拥有 。 
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在 需要 修改 该 数据 结构 时 ， 写 人 线程 首先 复制 ,然后 修改 副本 ,之 后 用 新 的 版 本 替代 相 
关 指针 , 这 也 是 该 算法 名 称 的 由 来 。 当 内 核 确信 老 的 版 本 上 没有 其 他 引用 时 , 就 可 释放 
老 的 版 本 。 


作为 RCU 的 实际 使 用 示例 , 可 考虑 网 络 路 由 表 。 每 个 外 出 数据 包 都 需要 检查 路 由 表 , 以 
便 确定 应 该 使 用 哪个 接口 。 这 种 检查 很 快 , 并 且 , 一 旦 内 核 找到 了 目标 接口 ,就 不 再 需 
要 那个 路 由 表 人 口 了 。RCU 可 让 路 由 查找 无 需 锁定 地 实现 ， 从 而 获得 较 大 的 性 能 提高 。 
内 核 中 的 Starmode 射频 IP 驱动 程序 也 使 用 RCU 来 跟踪 它 自 己 的 设备 清单 。 


使 用 RCU 的 代码 应 包含 <linux/rcupdate.h>。 


在 读 取 端 ， 代 码 使 用 受 RCU 保护 的 数据 结构 时 ， 必 须 将 引用 数据 结构 的 代码 包括 在 
rcu_read_lock 和 rcu_read_unlock 调用 之 闻 。 这 样 ，RCU 代码 可 能 如 下 所 示 : 


struct my_stuff *stuff; 


rcu_read lock(); 

stuff = find the_stuffl(args...); 
do_something with(stuff); 
rcu_read_unlock(); 


rcu_read_lock 调用 非常 快 ， 它 会 禁止 内 核 抢占 ， 但 不 会 等 待 任何 东西 。 用 来 检验 读 取 
“ 锁 ” 的 代码 必须 是 原子 的 。 在 调用 rcu_read_unlock 之 后 , 就 不 应 该 存在 对 受 保护 结构 
的 任何 引用 。 


用 来 修改 受 保护 结构 的 代码 必须 在 一 个 步骤 中 完成 。 第 一 步 很 简单 ， 只 需 分 配 一 个 新 的 
结构 , 如 果 必 要 则 从 老 的 结构 中 复制 数据 , 然后 将 读 取代 码 能 看 到 的 指针 替换 掉 。 这 时 ， 
读 取 端 会 假定 修改 已 经 完成 ， 任 何 进入 临界 区 的 代码 将 看 到 数据 的 新 版 本 。 


剩 下 的 工作 就 是 释放 老 的 数据 结构 。 当 然 , 问题 在 于 , 在 其 他 处 理 器 上 运行 的 代码 可 能 
仍 在 引用 老 的 数据 , 因此 不 能 立即 释放 老 的 结构 。 相 反 ， 写 入 代码 必须 等 待 直到 能 够 确 
信 不 存在 这 样 的 引用 。 因 为 拥有 对 该 数据 结构 的 引用 的 代码 都 必须 (规则 决定 ) 是 原子 
的 , 因此 我 们 可 以 知道 , 一 旦 系统 中 的 每 个 处 理 器 都 至 少 调度 一 次 之 后 , 所 有 的 引用 都 
会 消失 。 因 此 , RCU 所 做 的 就 是 , 设置 一 个 回调 函数 并 等 待 所 有 的 处 理 器 被 调度 , 之 后 
由 回调 函数 执行 清除 工作 。 


修改 受 RCU 保 护 的 数据 结构 的 代码 必须 通过 分 配 一 个 struct rcu_head 数 据 结 构 来 获 
得 清除 用 的 回调 函数 , 但 并 不 需要 用 什么 方式 来 初始 化 这 个 结构 。 通常 ， 这 个 结构 内 人 妊 
在 由 RCU 保护 的 大 资源 当中 。 在 修改 完 资源 之 后 ， 应 该 做 如 下 调用 : 


void call_rculstruct rcu_head *head, void {*func) (void *arg), void *arg); 
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在 可 安全 释放 该 资源 时 ,给 定 的 func 会 被 调用 ,传递 到 call_recu 的 相同 参数 也 会 传递 
给 这 个 函数 。 通 常 ，func 要 做 的 唯一 工作 就 是 调用 kfree。 


完整 的 RCU 接口 要 比 我 们 看 到 的 复杂 得 多 ,例如 ， 它 包括 一 些 用 来 操作 链表 的 辅助 函 
数 。 读 者 可 参阅 相关 头 文件 来 了 解 这 些 接口 。 


本 章 介绍 了 大 量 用 来 管理 并 发 的 符号 ， 我 们 在 这 里 总 结 了 其 中 最 重要 的 一 些 符号 : 


#include <asm/semaphore.h> 
定义 信号 量 及 其 操作 的 包含 文件 。 


DECLARE_MUTEX (name) ; 
DECLARE_MUTEX_LOCKED (name) ; 
用 于 声明 和 初始 化 用 在 互 斥 模式 中 的 信号 量 的 两 个 宏 。 


void init_MUTEX (Struct semaphore *sem); 

void init_MUTEX_LOCKED (struct semaphore *Ssem) ; 
这 两 个 函数 可 在 运行 时 初始 化 信号 量 。 

void down (Struct semaphore *sem); 

int down_interruptible(struct Semaphore *sem); 

int down_trylock (struct semaphore *sem); 

void up (struct semaphore *sem); 
锁定 和 解锁 信号 最 。 如 果 必 要 ，dowm 会 将 调用 进程 置 于 不 可 中 断 的 休 了 眼 状 态 ; 相 
反 ，down_interruptible 可 被 信号 中 断 。down_trylock 不 会 休眠 ， 并 且 会 在 信号 量 
不 可 用 时 立即 返回 。 锁 定 信号 量 的 代码 最 后 必须 使 用 up 解锁 该 信号 量 。 

struct rw_semaphore; 


init_rwsem(struct rw_semaphore *sem); 


信号 量 的 读 取 者 / 写 人 者 版 本 以 及 用 来 初始 化 这 种 信号 量 的 函数 。 


void down_read{struct rw_semaphore *sem); 
int down_read trylock(struct rw_ semaphore *sem); 
void up_readl(struct rw_semaphore *sem); 


获取 并 释放 对 读 取 者 / 写 人 者 信号 量 的 读 取 访问 的 函数 。 
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void down_write(struct rw_semaphore *sem) 

int down_write trylock(struct rw semaphore *sem) 

void up_ write{(struct rw_ semaphore *sem) 

void downgrade write{struct rw_semaphore *sem) 
对 读 取 者 / 写 入 者 信号 量 的 写 和 人 访问 进行 管理 的 函数 。 

#include <linux/completion.h> 

DECLARE_COMPLETION (name); 

init_completion(struct completion *c); 

INIT_ COMPLETION{struct completion c); 
描述 Linux 的 completion 机 制 的 包含 文件 ， 以 及 用 于 初始 化 completion 的 常用 方 
法 。INIT_COMPLETION 只 能 用 于 对 已 使 用 过 的 completion 的 重新 初始 化 。 


void wait_for_completion{(struct completion *c); 


等 待 一 个 completion 事件 的 发 生 。 


void complete(struct completion *c); 
void complete_all{struct completion *c); 
发 出 completion 事 件 信号 。 complete 最 多 只 能 唤醒 一 个 等 待 的 线程 ,而 complete_all 
会 唤醒 所 有 的 等 待 者 。 
void complete_and exit(struct completion *c, long retval); 
通过 调用 complete 并 调用 当前 线程 的 exit 函数 而 发 出 completion 事件 信号 。 
#include <linux/spinlock.h> 
spinlock_t lock = SPIN_LOCK. UNLOCKED; 
spin_lock_init (spinlock_t *lock); 


定义 自 旋 锁 接口 的 包含 文件 ， 以 及 初始 化 自 旋 锁 的 两 种 方式 。 


void spin_lock{(spinlock_t *lock); 

void spin_lock_irqsave(lspinlock_t *lock, unsigned long flags); 
void spin_lock_irq(spinlock_t *lock); 

void spin_lock bhl(spinlock_t *lock); 


锁定 自 旋 锁 的 不 同方 式 ， 某 些 方法 会 禁止 中 断 。 


int spin_trylock(spinlock_t *lock); 
int spin_trylock bhl(spinlock t *lock); 
上 述 函 数 的 非 自 旋 版 本 。 这 些 函 数 在 无 法 获得 自 旋 锁 时 返回 零 ， 否 则 返回 非 零 。 
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void spin unlock(spinlock_t *lock); 

void spin unlock_irgqrestore(spinlock_t *lock, unsigned long flags); 
void spin unlock_irql(spinlock_t *lock); 

void spin unlock bh(spinlock_t *lock); 


释放 自 旋 锁 的 相应 途径 。 
rwlock_t lock = RW_LOCK_UNLOCKED 
rwlock_ init(rwlock t *lock); 
初始 化 读 取 者 / 写 人 者 锁 的 两 种 方式 。 
void read_lock(rwlock _t *lock); 
void read lock irqsave{(rwlock_t *lock, unsigned long flags);: 
void read_lock_irq{rwlock_t *lock); 
void read_lock_bh{rwlock_t *lock); 
获取 对 读 取 者 / 写 入 者 锁 的 读 取 访 问 的 函数 。 
void read unlock(rwlock_t *lock); 
void read unlock_irqrestore(rwlock_t *lock, unsigned long flags); 
void read unlock_ irq(rwlock t *lock); 
void read unlock bh(rwlock_t *lock}); 
释放 对 读 取 者 / 写 入 者 自 旋 锁 的 读 取 访 问 的 函数 。 
void write. lock(rwlock_t *lock); 
void write_lock_irgqsave(rwlock_t *lock, unsigned long flags); 
void write_lock_ irq(rwlock t *lock); 
void write_lock bh{(rwlock 上 *lock); 


获取 对 读 取 者 / 写 入 者 自 旋 锁 的 写 人 访问 的 函数 。 


void write_ unlock (rwlock_t *lock); 

void write_unlock irqrestore(rwlock_t *lock, unsigned long flags); 
void write_ unlock_irq(rwlock_t *lock}); 

void write_unlock bh(rwlock_t *lock); 


释放 对 读 取 者 / 写 人 者 自 旋 锁 的 写 入 访问 的 函数 。 
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#include <asm/atomic.h> 

atomic_t V = ATOMIC_INIT(value); 

void atomic set(atomic_t *v, int i); 

int atomic_read(atomic _t *v); 

void atomic_add(int i, atomic _t *v); 

void atomic sub{tint 1, atomic tt *v)s 

void atomic_inc(atomic t *v); 

void atomic dec(atomic_t *v); 

int atomic_inc_ang_ test(atomic_t *v); 

int atomic_dec and test(atomic_t *v); 

int atomic_sub and test(int i, atomic t *v); 

int atomic add negativel(lint i, atomic_t *v); 

int atomic_add_return{int i, atomic_t *v); 

int atomic_sub_ return(lint i, atomic_t *v); 

int atomic_inc_return(latomic_t *v); 

int atomic_dec_ return(atomic_t *v); 
整数 变量 的 原子 访问 。 对 atomic_t 变量 的 访问 必须 仅 通过 上 述 函 数 。 

#include <asm/bitops.h> 

void set_bit(nr, void *addr); 

void clear_bitt{nr, void *addr); 

void change_bit(nr, void *addr); 

test_bit{nr, void *addr); 

int test_and set bit(nr, void *addr); 

int test_and clear_bit (nr, void *addr); 

int test_and change bit (nr, void *addr); 
对 位 值 的 原子 访问 , 它们 可 用 于 标志 或 锁 变 量 。 使 用 这 些 函 数 可 避免 因为 对 相应 位 
的 并 发 访问 而 导致 的 任何 竞 态 。 

#include <linux/seqlock.h> 

sedqlock_t lock = SEQLOCK._UNLOCKED; 

seqlock_init(seqlock_t *lock); 


定义 seqlock 的 包含 文件 ， 以 及 初始 化 seqlock 的 两 种 方式 。 
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unsigned int read seqbegin(seqlock_t *lock); 
unsigned int read_ seqbegin_irqsave{seqlock_t *lock, unsigned long flags); 
int read seqretry{seqlock_t *lock, unsigned int seq); 
int read_seqretry. irqrestore(seqlock t *lock, unsigned int seqg, unsigned 
long flags); 
用 于 获取 受 seqlock 保护 的 资源 的 读 取 访问 的 函数 。 
void write_seqlock (seqlock_t *lock); 
void write_seqlock_irqsave(seqlock t *lock, unsigned long flags); 
void write seqlock_irq(seqlock_t *]lock); 
void write_seGqlock_bh(seqlock_t *lock); 
int write_ tryseqlock(seqlock_t *]lock); 


用 于 获取 受 seqlock 保护 资源 的 写 入 访问 的 函数 。 
void write_sequnlock(seqlock_t *lock); 
void write_sequnlock_irqrestore(seqlock tt *lock, unsigned long flags); 
void write_ sequnlock_ irq{seqlock _t *lock); 
void write_ sequnlock bhl(seqlock t *lock); 
用 于 释放 受 seqlock 保护 的 资源 的 写 人 访问 的 函数 。 
#include <linux/rcupdate.h> 
使 用 读 取 - 复制 -更 新 (RCU) 机 制 时 需要 的 包含 文件 。 
void rcu_read lock; 
void rcu_read unlock; 
获取 对 受 RCU 保护 的 资源 的 读 取 访问 的 宏 。 
void call rcul(struct rcu head *head, void (*func) (void *arg), void *arg); 
准备 用 于 安全 释放 受 RCU 保护 的 资源 的 回调 函数 , 该 函数 将 在 所 有 的 处 理 器 被 调 
度 后 运行 。 
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在 第 三 章 , 我 们 已 经 构建 了 一 个 结构 完整 的 可 读 写 设备 驱动 程序 。 但 -个 实际 可 用 的 设 
备 除了 提供 同步 读 取 和 写 入 之 外 , 还 会 提供 更 多 的 功能 。 而 现在 我 们 拥有 调试 工具 , 掌 
担 了 相关 的 调试 方法 ， 并且 对 并 发 问题 有 了 坚实 的 理解 ， 这样， 构造 更 高 级 的 驱动 程序 
就 相对 容易 了 。 








本 章 阅 述 了 编写 全 功能 字符 设备 驱动 程序 的 几 个 概念 。 首先 ， 我 们 要 实现 ioct! 系统 调 
用 , 它 是 用 于 设备 控制 的 公共 接口 。 然 后 , 我 们 介绍 了 和 用 户 空间 保持 同步 的 几 种 途径 。 
读 完 本 章 , 读者 将 掌握 如 何 使 进程 休眠 (并 唤醒 )、 如 何 实现 非 阻塞 IO, 以 及 在 设备 可 
读 取 或 写 入 时 如 何 通知 用 户 空间 ,等 等 。 最 后 ， 我 们 介绍 了 如 何在 驱动 程序 中 实现 几 种 
不 同 的 设备 访问 策略 。 


本 意 介绍 的 这 些 内 容 均 会 通过 对 scull! 驱 动 程序 的 修改 来 说 明 ,其 实现 使 用 的 仍然 是 内 存 
中 的 虚拟 设备 , 这 样 ， 读者 可 以 在 不 需要 任何 特定 硬件 的 情况 下 尝试 运行 这 些 代码 。 读 
者 也 许 着 急 处 理 真 正 的 硬件 ， 但 还 要 等 到 第 九 章 。 


ioctl 


除了 读 取 和 写 入 设备 之 外 ， 大 部 分 驱动 程序 还 需要 另外 一 种 能 力 ， 即 通过 设备 驱动 程序 

执行 各 种 类 型 的 硬件 控制 。 简单 数据 传输 之 外 ， 大 部 分 设备 可 以 执行 其 他 一 些 操作 , 比 

如 ,用户 空间 经 常会 请 求 设备 锁 门 、 弹 出 介质 、 报告 错误 信息 、 改 变 波 特 率 或 者 执行 自 

破坏 ， 等 等 。 这 些 操作 通常 通过 ioct! 方 法 支持 ， 该 方法 实现 了 同名 的 系统 调用 。 

在 用 户 空间 ，iocti 系统 调用 具有 如 下 原型 : 

int ioctl(int fd, unsigned long Cp (mt 

由 于 使 用 了 一 连 串 的 “.” 的 缘故 ， 这 个 原型 在 Unix 系统 调用 中 显得 比较 特别 ， 通 常 这 

137. 
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些 点 代表 可 变数 日 的 参数 表 。 但 是 在 实际 系统 中 , 系统 调用 不 会 真正 使 用 可 变数 目的 参 
数 , 而 是 必须 具有 精确 定义 的 原型 ， 这 是 因为 用 户 程序 只 能 通过 硬件 “ 门 ”才能 访问 它 
们 。 所 以 , 原型 中 的 这 些 点 并 不 是 数目 不 定 的 -- 串 参数 ,而 只 是 一 个 可 选 参 数 , 习惯 上 
用 char *argp 定 义 。 这 里 用 点 只 是 为 了 在 编译 时 防止 编 详 器 进行 类 型 检查 。 第 三 个 参 
数 的 具体 形式 依赖 于 要 完成 的 控制 命令 ,也 就 是 第 二 个 参数 。 某 些 控制 命令 不 需要 参数 ， 
某 些 需要 一 个 整数 参数 , 而 某 些 则 需要 一个 指针 参数 。 使 用 指针 可 以 向 iocr 调 用 传递 任 
意 数据 ， 这 样 设备 可 以 与 用 户 空间 交换 任意 数量 的 数据 。 


ioct! 调 用 的 非 结 构 化 本 质 导 致 众多 内 核 开发 者 倾向 于 放弃 它 。 从 本 质 上 讲 , 每 个 iocri 命 
令 就 是 一 个 独立 的 系统 调用 , 而 且 是 非 公开 的 , 因此 没有 任何 办 法 可 以 以 一 种 容易 理解 
的 方式 来 审核 这 些 调 用 。 让 这 种 非 结构 化 的 iocz 参 数 在 所 有 系统 上 表现 一 致 也 是 非常 困 
难 的 ， 为 了 理解 这 一 点 ， 试 想 在 64 位 系统 上 运行 32 位 模式 的 用 户 空间 进程 。 结 果 ， 有 
许多 需求 要 求 我 们 通过 其 他 途径 实现 繁杂 的 控制 操作 . 可 能 的 方式 包括 : 将 命令 修 入 到 
数据 流 中 (将 在 本 章 后 面 讨 论 这 一 方法 ), 或 者 使 用 虚拟 文件 系统 .比如 sysfs 或 者 设备 
相关 的 文件 系统 (第 十 四 章 将 讨论 sysfs )。 但 现实 情况 中 , 对 真正 的 设备 操作 来 说 ,ioct 
仍然 是 最 简单 且 最 直接 的 选择 。 


驱动 程序 的 ioct 方法 原型 和 用 户 空 间 的 版 本 存在 一 些 不 同 : 


int (*ioct1) {struct inode *inode, struct file *filp, 
unsigned int cmd, unsigned long arg) 


inode 和 filp 两 个 指针 的 值 对 应 于 应 用 程序 传递 的 文件 描述 符 fa, 这 和 传 给 open 方 
法 的 参数 一 样 。 参数 cmd 由 用 户 空间 不 经 修改 地 传递 给 驱动 程序 , 可 选 的 arg 参 数 则 无 
论 用 户 程序 使 用 的 是 指针 还 是 整数 值 , 它 都 以 unsigned 1ong 的 形式 传递 给 驱动 程序 。 
如 果 调 用 程序 没有 传递 第 三 个 参数 ， 那 么 驱动 程序 所 接收 的 arg 参数 就 处 在 未 定义 状 
态 。 由 于 对 这 个 附加 参数 的 类 型 检查 被 关闭 了 ， 所 以 如 果 为 ioct! 传 递 一 个 非法 参数 ， 编 
译 器 是 无 法 报警 的 ， 这 样 ， 相 关联 的 程序 错误 就 很 难 被 发 现 。 


读者 可 能 已 经 想到 了 ， 大 多 数 ioct! 的 实现 中 都 包括 一 个 switch 语句 来 根据 cma 参数 
选择 对 应 的 操作 。 不 同 的 命令 被 赋予 不 同 的 数值 , 为 了 简化 代码 , 通常 会 在 代码 中 使 用 
符号 名 代替 数值 ,这些 符号 名 由 C 语言 的 预 处 理 语句 定义 。 定 制 的 设备 驱动 程序 通常 会 
在 它们 的 头 文件 中 声明 这 些 符号 ， 如 scali 中 声明 了 scull 所 使 用 的 符号 。 为 了 访问 这 
些 符 号 ， 用 户 程 序 自然 也 要 包含 这 些 头 文件 。 


选择 ioctl 命令 
在 编写 iocrl 代码 之 前 , 需要 选择 对 应 不 同 命令 的 编号 。 多 数 程序 员 的 第 一 本 能 是 从 0 或 
者 1 开始 选择 一 组 小 的 编号 。 然 而 ， 有 许多 理由 要 求 不 能 这 样 选择 命令 编号 。 为 了 防止 
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对 错误 的 设备 使 用 正确 的 命令 , 命令 只 应 该 在 系统 范围 内 唯一 。 这 种 错误 匹配 并 不 是 不 
会 发 生 , 程序 可 能 发 现 自己 正在 试图 对 FIFO 和 audio 等 这 类 非 串 行 设备 输入 流 修改 波 特 
率 。 如 果 每 一 个 ioctl 命 令 都 是 唯一 的 , 应 用 程序 进行 这 种 操作 时 就 会 得 到 一 个 EINVAL 
错误 ， 而 不 是 无 意 间 成 功 地 完成 了 意 想 不 到 的 操作 。 


为 方便 程序 员 创 建 唯一 的 ioct/ 命 令 号 , 每 一 个 命令 号 被 分 为 多 个 位 字段 。Linux 的 第 一 
个 版 本 使 用 了 一 个 16 位 整数 : 高 8 位 是 与 设备 相关 的 “ 幻 ” 数 , 低 8 位 是 一 个 序列 号 码 ， 
在 设备 内 是 唯一 的 。 当 时 采用 这 种 方案 是 因为 , 用 Linus 自己 的 话说 , 他 有 点 “无 头绪 ”， 
后 来 才 得 到 一 个 更 好 的 位 字段 分 割 方案 .遗憾 的 是 ,相当 多 的 驱动 程序 仍 使 用 旧 的 约定 ， 
因为 修改 命令 号 会 导致 很 多 已 有 的 二 进 制程 序 无 法 运行 。 


要 按 Linux 内核 的 约定 方法 为 驱动 程序 选择 ioct! 编 号 , 应 该 首先 看 看 includelasm/ioctl.h 
和 Documentarion/lioctl-number.txt 这 两 个 文件 。 头 文件 定义 了 要 使 用 的 位 字段 : 类 型 ( 幻 
数 )、 序 数 、 传 送 方向 以 及 参数 大 小 等 等 。ioctl-number.txt 文件 中 罗列 了 内 核 所 使 用 的 
幻 数 ( 注 1), 这 样 , 在 选择 自己 的 幻 数 时 就 可 以 避免 和 内 核 冲突 。 这 个 文件 也 给 出 了 为 
什么 应 该 使 用 这 个 约定 的 原因 。 


定义 号 码 的 新 方法 使 用 了 4 个 位 字段 , 其 含义 如 下 面 所 给 出 。 下 面 所 介绍 的 新 符号 都 定 
义 在 <linuxlioctl.h> 中。 


type 
幻 数 。 选 择 一 个 号 码 ( 记 住 先 仔细 阅读 ioctl-number.txt)， 并 在 整个 驱动 程序 中 使 
用 这 个 号 码 。 这 个 字段 有 8 位 宽 (_IOC_TYPEBITS )。 

number 
序数 (顺序 编号 )。 它 也 是 8 位 宽 (_IOC_NRBITS)。 

direction 
如 果 相 关 命令 涉及 到 数据 的 传输 , 则 该 位 字段 定义 数据 传输 的 方向 。 可 以 使 用 的 值 
包括 _IOC_NONE( 没 有 数据 传输 )、_IOC_READ、_IOC_WRITE 以 及 _IOC_READ 
| _IOC_WRITE( 双 向 传输 数据 )。 数 据 传输 是 从 应 用 程序 的 角度 看 的 ,也 就 是 说 ， 
IOC_READ 意 味 着 从 设备 中 读 取 数据 , 所 以 蝶 动 程序 必须 向 用 户 空间 写 人 数据 , 注 
意 ， 该 字段 是 一 个 位 掩 码 ， 因 此 可 以 用 逻辑 AND 操作 从 中 分 解 出 _IOC_READ 和 
_IOC_WRITE。 


size 
所 涉及 的 用 户 数据 大 小 。 这 个 字段 的 宽度 与 体系 结构 有 关 ， 通 常 是 13 位 或 14 位 ， 
具体 可 通过 宏 _IOC_SIZEBITS 找 到 针对 特定 体系 结构 的 具体 数值 。 系统 并 不 强制 





注 1: 但 是 ， 对 这 个 文件 的 维护 稍微 有 些 滞后 。 
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使 用 这 个 位 字段 , 也 就 是 说 , 内 核 不 会 检查 这 个 位 字段 。 对 该 位 字段 的 正确 使 用 可 
帮助 我 们 检测 用 户 空间 程序 的 错误 , 并 且 如 果 我 们 从 不 改变 相关 数据 项 大 小 的 话 ， 
这 个 位 字段 还 可 以 帮助 我 们 实现 向 后 的 兼容 性 。 但 是 ,如 果 需 要 很 大 的 数据 传输 ， 
则 可 以 忽略 这 个 位 字段 。 稍 后 我 们 将 介绍 如 何 使 用 这 个 位 字段 。 


<linuxlioctl.h> 中 包含 的 <asm/iocti.h> 头 文件 定义 了 一 些 构造 命令 编号 的 宏 
_IO(type,nr) 用 于 爸 造 无 参数 的 命令 编号 ; _IOR(type,nr,datatype) 用 于 构造 从 
驱动 程序 中 读 取 数据 的 命令 编号 ; _IOW (type,nr,datatype) 用 于 写 入 数据 的 命令 ; 

_IOWR (type,nr,datatype) 用 于 双向 传输 。type 和 number 位 字段 通过 参数 传人 ， 
而 size 位 字段 通过 对 datatype 参数 取 sizeof 获得 。 


这 个 头 文件 还 定义 了 用 于 解 开 位 字段 的 宏 : _IOC_DIR(nr)、_IOC_TYPE(nr)、 
_IOC_NR (nr) 和 _IOC_SIZE (nr)。 在 此 不 打算 详细 介绍 这 些 宏 ， 头 文件 里 的 定义 已 经 
足够 清楚 了 ， 本 节 稍 后 也 会 给 出 示例 。 


下 面 是 scul! 中 的 一 些 ioct! 命令 定义 。 需 要 特别 指出 的 是 ， 这 些 命令 用 来 设置 和 获取 驱 
动 程序 的 配置 参数 。 


/* 使 用 “k” 作 为 幻 数 */ 
#define SCULL_IOC_MAGIC ‘k' 
/* 在 你 自己 的 代码 中 ， 请 使用 不 同 的 8 位 数字 */ 


#define SCULL_IOCRESET _IO(SCULL_IOC_MRAGIC，0) 


* S means "Set" through a ptr, 

* T means "Tell" directly with the argument Value 

w G means "Get": reply by setting through a pointer 
* Q means "Query": response is on the return value 
* X means "exchange": Switch G and S atomically 

* H means "SHift": switch T and Q atomically 


* S 表示 通过 指针 “设置 (Set )” 

* T 表示 直接 用 参数 值 “ 通 知 (Tel1)” 

* G 表示 “获取 (Get )"; 通过 设置 指针 来 应 答 

* Q 表示 “查询 (Query)”: 通过 返回 值 应 答 

* X 表示 “交换 (eXchange)": 原子 地 交换 G 和 5S 
* H 表示 “切换 (sHift)": 原子 地 交换 T 和 


#define SCULL_IOCSQURNTUM _IOW(SCULL_IOC_MAGIC， 1, int) 
#define SCULL_IOCSQSET _IOW(SCULL_IOC_MAGIC, 2, int) 
#define SCULL_IOCTOURNTUM _IO(SCULL_IOC_MRAGIC， 3) 
#define SCULL_IOCTQOSET _IO(SCULL_IOC_MAGIC, 4) 
#define SCULL_IOCGQUANTUM _IOR(SCULL_IOC_MRGIC， 5, int) 
#define SCULL_IOCGQSET _IOR(SCULL_IOC_ MAGIC, 6, int) 


#define SCULL_IOCQQUANTUM _IO{SCULL,_IOC_MAGIC, | 
#define SCULL_IOCQQSET _IO(SCULL_IOC MAGIC, 8) 
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#define SCULL_IOCXQUANTUM _IOWR{SCULL_IOC_MAGIC, 9, int) 


#define SCULL_IOCXQSET _IOWR (SCULL_IOC_MAGIC,10，int) 
#define SCULL_IOCHQUANTUM _IO(SCULL_ IOC MAGIC, 11) 
#define SCULL_IOCHQSET _IO(SCULL_IOC MAGIC, 12} 


#define SCULL_IOC MAXNR 14 
实际 的 源码 述 定义 了 其 他 一 些 命令 ,但 这 里 没有 列 出 。 


尽管 根据 已 有 的 约定 , ioct! 应 该 使 用 指针 完成 数据 交换 , 但 我 们 仍然 选择 用 两 种 方法 实 
现 整数 参数 传递 通过 指针 和 显 式 的 数值 。 同 样 ， 这 两 种 方法 还 用 于 返回 整数 ， 通 
过 指针 或 通过 设置 返回 值 。 如果 返 回 值 是 正 的 , 就 表示 工作 正常 。 从 任何 一 个 系统 调用 
返回 时 , 正 的 返回 值 是 受 保护 的 (正如 我 们 在 read 和 write 所 见 到 的 ), 而 负 值 则 被 认为 
是 一 个 错误 ,并 被 用 来 设置 用 户 空间 中 的 errno 变革 ( 注 2)。 





“exchange” 和 “shift” 操 作对 scul! 设备 来 说 并 不 特别 有 用 。 我 们 实现 “exchange” 操 
作 是 为 了 示范 在 坚 动 程序 中 如 何 把 分 离 的 操作 合并 成 一 个 原子 操作 , 而 “shift” 操 作 则 
将 “tell” 和 “query” 操 作 合 并 在 一 起 。 某 些 时 候 需 要 “测试 兼 设置 ”这 类 操作 是 原子 
操作 一 一 特别 是 当 应 用 程序 需要 加 锁 和 解锁 时 。 


显 式 的 命令 序数 没什么 特别 含义 , 仅仅 用 来 区 分 命令 。 共 实 , 我 们 甚至 可 以 在 读 命令 和 
写 命令 中 使 用 同一 序数 , 因为 实际 ioct! 编 号 中 的 “方向 ”位 肯定 不 一 样 , 不 过 最 好 还 是 
不 要 这 样 做 。 除了 在 声明 中 用 到 序数 之 外 , 在 别 的 地 方 我 们 都 不 用 它 , 这样 就 不 必 为 它 
分 配 一 个 符号 了 。 这 也 就 是 为 什么 在 前 面 给 出 的 定义 中 直接 使 用 了 数字 的 原因 。 例子 示 
范 了 一 种 使 用 命令 编号 的 方法 ， 读 者 也 可 以 自行 选择 使 用 其 他 不 同 的 方法 。 


除了 少量 预定 义 的 命令 ( 稍 后 讨论 ) 之 外 ， 内 核 并 未 使 用 ioct 的 cma 参数 的 值 ， 以 后 
也 不 太 可 能 使 用 。 这 样 ， 如 果 想 偷懒 ， 可 以 不 使 用 上 面 那些 复杂 的 声明 ， 而 直接 显 式 地 
声明 一 组 标量 数字 。 由 此 带 来 的 问题 是 , 这 样 将 无 法 从 位 字段 中 受益 了 。 而 且 如 果 你 打 
算 将 自己 的 代码 合并 到 内 核 主线 代码 中 的 话 , 会 带 来 许多 问题 。 头 文件 <linux/kd.h> 就 
是 使 用 旧 风格 的 例子 , 它 使 用 了 16 位 的 标量 数值 来 定义 ioct! 命 令 , 这 并 非 由 于 懒 情 , 而 
是 那 时 只 有 这 种 方法 ， 而 现在 修改 它 会 引起 一 大 堆 兼 容 性 方面 的 问题 。 


返回 值 
ioct! 的 实现 通常 就 是 一 个 基于 命令 号 的 switch 语 句 。 但 是 当 命 令 号 不 能 匹配 任何 合法 
的 操作 时 , 默认 的 选择 是 什么 ?对 于 这 个 问题 颇 有 和 争议。 有些 内 核 函 数 会 返回 -ENVAL 





注 2; 实际 上 ， 当 前 使 用 的 所 有 libc 实现 (包括 uClibc) 认为 错误 范围 在 一 4095 - 一 1 之 间 。 不 
幸 的 是 ， 返 回 大 的 负 错误 号 而 不 是 小 的 错误 号 并 不 十 分 有 用 。 
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(“Invalid argument, 非法 参数 " ), 这 是 合理 的 , 因为 命令 参数 的 傅 不 是 合法 的 参数 。 然 
而 ，POSIX 标准 期 定 ， 如 果 使 用 了 不 合适 的 iocr 命令 参数 ， 应 该 返回 -ENOTTY。C 库 
将 这 个 错误 码 解释 为 “Inappropriate ioctl for device， 不 合适 的 设备 ioctt” ， 这 看 起 来 
更 贴切 些 。 尽 管 如 此 ， 对 非法 的 ioctl 命令 返回 -EINVAL 仍然 是 很 普遍 的 做 法 。 


预定 义 命令 


尽管 ioct! 系 统 调用 绝 大 部 分 用 于 操作 设备 , 但 还 有 一 些 命 令 是 可 以 由 内 核 识别 的 。 要 注 
意 ， 当 这 些 命令 用 于 我 们 的 设备 上 时， 它们 会 在 我 们 自己 的 文件 操作 被 调用 之 前 被 解码 。 
所 以 , 如 果 你 为 自己 的 ioct! 命 令 选用 了 与 这 些 预 定义 命令 相同 的 编写, 就 永远 不 会 收 到 
该 命令 的 请 求 ， 而 且 由 于 ioct 编号 冲突 ， 应 用 程序 的 行为 将 无 法 预测 。 


预定 义 命令 分 为 三 组 : 

。 ”可 用 于 任何 文件 (普通 、 设 备 、FIFO 和 套 接 字 ) 的 命令 
。 ”只 用 于 普通 文件 的 命令 

。 ”特定 于 文件 系统 类 型 的 命令 


最 后 一 组 命令 只 能 在 宿主 文件 系统 上 执行 ( 见 chatir 命 令 )。 设备 驱动 程序 开发 人 员 只 对 
第 一 组 感 兴趣 , 它们 的 幻 数 都 是 “T”。 分 析 其 他 组 的 工作 留 给 读者 做 练习 。ext2_ioctl 是 
其 中 最 有 意思 的 函数 ( 比 读者 想像 的 容易 理解 )， 它 实现 了 只 追加 (append-only ) 标志 
利 不 可 变 (immutable ) 标志 。 


下 列 iocl 命令 对 任何 文件 (包括 设备 特定 文件 ) 都 是 预定 义 的 : 


FIOCLEX 
设置 执行 时 关闭 标志 (File IOctl CLose on EXec)。 设置 了 这 个 标志 之 后 ， 当 调用 
进程 执行 一 个 新 程序 时 ， 文 件 描 述 符 将 被 关闭 。 


FIONCLEX 
清除 执行 时 关闭 标志 (File IOctl Not CLose on EXec )。 该 命令 将 恢复 通常 的 文件 
行为 ， 并 撤销 上 述 FIOCLEX 命令 所 做 的 工作 。 


FIOASYNC 
设置 或 复位 文件 异步 通知 { 稍 后 在 本 章 的 “异步 通知 ”一 节 中 讨论 )。 注 意 , 直到 
Linux 2.2.4 版 本 的 内 核 都 不 正确 地 使 用 了 这 个 命令 来 修改 0_SYNC 标志 。 因 为 这 
两 个 动作 都 可 以 通过 fenti 完 成 ,所 以 实际 上 没有 人 会 使 用 FIOASYNC 命令 , 列 在 
这 里 只 是 为 了 保持 完整 。 
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FIOQSIZE 
该 命令 返回 文件 或 日 录 的 大 小 。 不过, 当 用 于 设备 文件 时 , 会 导致 ENOTTY 错 误 的 
返回 。 

FIONBIO 
总 指 “File IOctl Non-Blocking IO”、 即 “文件 ioctl 非 阻塞 型 IO”( 稍 后 在 本 音 
“ 阻 寨 型 与 非 阻塞 型 操作 ”一 节 中 介绍 )。 该 调用 修改 filp->f_fliags 中 的 
O_NONBLOCK 标 志 。 传 递 给 系统 调用 的 第 三 个 参数 指明 了 是 设置 还 是 清除 该 标志 。 
我 们 马上 就 可 以 看 到 该 标志 的 作用 。 注 意 ， 修改 这 个 标志 的 常用 方法 是 由 fcntil 系 
统 调用 使 用 已 SETFL 命令 来 完成 。 


在 上 述 清单 的 最 后 一 项 中 我 们 引入 了 一 个 新 的 系统 调用 , 即 fend， 看 起 来 很 像 ioct1。 实 
际 上 ,fnctl 调 用 也 要 传递 一 个 命令 参数 和 一 个 附加 的 可 选 参数 ,在 这 点 上 它 类 似 于 iocnl。 
它 和 ioct! 的 不 同 主要 是 由 于 历史 原因 造成 的 : 当 Unix 的 开发 人 员 面 对 控制 IO 操作 的 
问题 时 ， 他 们 认为 文件 和 设备 是 不 同 的 。 那 时 ， 与 ioc4 实现 相关 的 唯一 设备 就 是 终端 ， 
这 也 解释 了 为 什么 非法 的 ioct 命令 的 标准 返回 值 是 -ENOTTY。 现 在 情况 盟 然 不 同 了 ， 
但 是 fcntl 还 是 为 了 向 后 兼容 而 保留 了 下 来 。 


使 用 ioctl 参数 

在 分 析 scul! 驱 动 程序 的 ioct1 代 码 之 前 , 还 有 一 点 要 解释 ,就 是 怎样 使 用 那个 附加 参数 。 
如 果 它 是 个 整数 ， 那 么 很 简单 ， 直 接 使 用 就 可 以 了 。 如 果 是 个 指针 ， 就 需要 注意 一 些 问 
题 了 。 

当 用 一 个 指针 指向 用 户 空间 时 , 必须 确保 指向 的 用 户 空间 是 合法 的 。 对 未 验证 的 用 户 空 
间 指 针 的 访问 ,可 能 导致 内 核 oops、 系 统 崩溃 或 者 安全 问题 。 驱 动 程序 应 该 负责 对 每 个 
用 到 的 用 户 空 间 地 址 做 适当 的 检查 ， 如 果 是 非法 地 址 则 应 该 返回 一 个 错误 。 


在 第 三 章 , 我 们 看 到 了 copy_from_user 和 copy_ro_user 函数, 这 两 个 函数 可 安全 地 与 用 
户 空间 交换 数据 。 这 两 个 函数 也 可 以 在 iocti 方 法 中 使 用 ,但 是 因为 ioct 调用 通常 涉及 
到 小 的 数据 项 ， 因 此 可 通过 其 他 方法 更 有 效 地 操作 。 为 此 ， 我 们 首先 要 通过 函数 
access_ok 验证 地 址 (而 不 传输 数据 )， 读 函数 在 <asm/uaccess.h> 中 声明 : 


int access_ok(tint type, const void *addr, unsigned long size); 


第 一 个 参数 应 该 是 VERIFY_READ 或 VERIFY_WRITE ,取决 于 要 执行 的 动作 是 读 取 还 是 写 
入 用 户 空间 内 存 区 。addr 参数 是 一 个 用 户 空 间 地 址 ，size 是 字 节 数 。 例如 ,如果 iocri 
旨 从 用 户 空 间 读 取 一 个 整数 ，size 就 是 sizeof (int)。 如 果 在 指定 地 址 处 既 要 读 取 
又 要 写 人 ， 则 应 该 用 VERIFY_WRITE， 因 为 它 是 VERIFY_READ 的 超 集 。 


144 第 六 章 





与 大 多 数 函 数 不 同 ，access_ok 返回 一 个 布尔 值 ，1 表示 成 功 ( 访 问 成 功 )， 0 表示 失败 
(访问 不 成 功 )。 如 果 返回 失 败 ， 驱 动 程序 通常 要 返回 -EFAULT 给 调用 者 。 


关于 access_ok, 有 两 点 有 趣 之 处 需要 注意 。 第 一 , 它 并 没有 完成 验证 内 存 的 全 部 工作 ， 
而 只 检查 了 所 引用 的 内 存 是 否 位 于 进程 有 对 应 访问 权限 的 区 域内 ,特别 是 要 确保 访问 地 
址 没有 指向 内 核 空间 的 内 存 区 。 第 二 , 大 多 数 驱动 程序 代码 中 都 不 需要 真正 调用 
access_ok, 因为 后 面 要 讲 到 的 内 存 管理 程序 会 处 理 它 。 尽管 如 此 , 我 们 还 是 示范 一 下 它 
的 使 用 。 


scull 的 源 代码 在 switch 语句 前 ， 通 过 分 析 iocr! 编号 的 位 字段 来 检查 参数 : 


int err = 0, tmp; 
int retval = 0; 


/i* 

* 抽取 类 型 和 编号 位 字段 ， 并 拒绝 错误 的 命令 号 : 

* 在 调用 access_ok{() 之 前 返回 ENOTTY (不 恰当 的 ioct1) 

过 

if (_IOC_TYPE{(cmd) != SCULL_IOC_MAGIC) return -ENOTTY; 
if (_IOC_NR(cmd) > SCULL_IOC_MAXNR) return -ENOTTY; 


/* 

* 方向 是 一 个 位 掩 码 ， 而 VERIFY_WRITE 用 十 R/W* 传输 。 

* “类 型 ”是 针对 用 户 空间 而 言 的， 而 access_ok 是 面向 内 核 的 。 
* 因此 ,“ 读 取 ” 和 “ 写 人 ”的 概念 恰好 相反。 

*/ 


if {_IOC_ DIR(cmd) & _IOC_ READ) 

err = !access_ok(VERIFY_WRITE， (void _ _user *)arg, IOC_SIZE(cmd)); 
else if {_IOC DIR(cmd) & _IOC_ WRITE) 

err = !access_ Ok(VERIFY READ, (void _ _user *)arg, _IOC_SIZE (cmAd)); 
if (err) return -EFAULT; 


在 调用 access_ok 之 后 ,驱动 程序 就 可 以 安全 地 进行 实际 的 数据 传送 了 。 除 了 
copy_from_user 和 copy_to_user 函数 外 ， 程 序 员 还 可 以 使 用 已 经 为 最 常用 的 数据 大 小 
(1、2、4 及 8 个 字 节 ) 优化 过 的 一 组 函数 。 这 些 函 数 定义 在 <asm/uaccess.h> 中 ， 列 在 
下 面 : 


Put_user (datum, ptr) 

_ _put user(datum, ptr) 
这 些 宏 把 datum 写 到 用 户 空 间 。 它们 相对 比较 快 ， 当 要 传递 单个 数据 时 , 应 该 用 这 
些 宏 而 不 是 用 copy_to_user。 由 于 这 些 宏 在 展开 时 不 做 类 型 检查 , 所 以 可 以 传递 给 
put_user 任意 类 型 的 指针 ， 只 要 是 个 用 户 空间 地 址 就 行 。 传 递 的 数据 大 小 依赖 于 
ptr 参数 的 类 型 ,在 编译 时 由 编译 器 的 内 建 指令 sizeof 和 typeof 确定 。 总 之 ， 
如 果 ptr 是 一 个 字符 指针 ， 就 传递 1 个 字 节 ，2、4、8 字 节 的 情况 类 似 。 
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put_user 进行 检查 以 确保 进程 可 以 写 人 指定 的 内 存 地 址 , 并 在 成 功 时 返回 0， 出 错 
时 返回 -EFAULT。__put_user 做 的 检查 少 些 ( 它 不 调用 access_ok), 但 如 果 地 址 
指向 用 户 不 能 写 和 人 的 内 存 , 也 会 出 现 操作 和 失败。 因而，_ _put_user 应 该 在 已 经 使 用 
access_ok 检验 过 内 存 区 后 嵌 使 用 。 
一 般 的 用 法 是 , 实现 一 个 读 取 方法 时 ,可 以 调用 __pur_user 来 节省 几 个 时 钟 周期 ， 
或 者 在 复制 多 项 数据 之 前 调用 一 次 access_ok， 就 像 上 面 的 ioct 代码 一 样 。 
get_user(local, ptr) 
__get user(local, ptr) 
这 些 宏 用 于 从 用 户 空间 接收 一 个 数据 。 除了 传输 方向 相反 之 外 , 它们 与 pur_user 和 和 
__put_user 差 不 多。 接收 的 数值 被 保存 在 局 部 变量 1ocal 中, 返回 值 则 指明 了 操 
作 是 否 成 功 。 同样，__get_user 应 该 在 操作 地 址 已 被 access_ok 检 验 后 使 用 。 


如 果 试 图 使 用 上 面 列 出 的 函数 传递 大 小 不 符合 任意 一 个 特定 值 的 数值 ,结果 通常 是 编译 
器 会 给 出 一 条 奇怪 的 消息 ， 比 如 “conversion to non-scalar type requested (需要 转换 
为 非 标量 类 型 )” 。 在 这 种 情况 下 ， 必 须 使 用 copy_to_Mser 或 者 copy_from_user。 


权能 与 受 限 操作 

对 设备 的 访问 由 设备 文件 的 权限 控制 , 驱动 程序 通常 不 进行 权限 检查 。 不 过 也 有 这 种 情 
况 、 允 许 用 户 对 设备 读 / 写 ,而 其 他 的 操作 被 禁止 。 例 如 ， 不 是 所 有 的 磁带 驱动 器 使 用 
者 都 可 以 设置 它 的 默认 块 大 小 ,允许 用 户 使 用 磁盘 设备 也 并 不 意味 着 就 可 以 格式 化 磁盘 。 
在 类 似 的 情况 下 ， 驱 动 程序 必须 进行 附加 的 检查 以 确认 用 户 是 否 有 权 进 行 请 求 的 操作 。 


根据 Unix 系统 的 传统 ， 特 权 操 作 仅 限于 超级 用 户 账号 。 这 种 特权 要 么 全 有 ， 要 么 全 无 
一 一 超级 用 户 几乎 可 以 做 任何 事 , 而 所 有 其 他 用 户 则 受到 严格 的 限制 。Linux 内 核 提 供 
了 一 个 更 为 灵活 的 系统 ， 称 为 权能 (capability )。 基 于 权能 的 系统 抛弃 了 那 种 要 么 全 有 
要 么 全 无 的 特权 分 配方 式 , 而 是 把 特权 操作 划分 为 独立 的 组 。 这样 ， 某 个 特定 的 用 户 或 
程序 就 可 以 被 授权 执行 某 一 指定 的 特权 操作 ， 同 时 又 没有 执行 其 他 不 相关 操作 的 能 力 。 
内 核 专 为 许可 管理 使 用 权能 并 导出 了 两 个 系统 调用 capget 和 capset, 这 样 就 可 以 从 用 户 
空间 来 管理 权能 。 


全 部 权能 操作 都 可 以 在 <linux/capability.h> 中 找到 , 其 中 包含 了 系统 能 够 理解 的 所 有 权 
能 ; 不 修改 内 核 源 代码 , 驱动 程序 作者 或 系统 管理 员 就 无 法 定义 新 的 权能 。 对 驱动 程序 
开发 者 来 讲 有 意义 的 权能 如 下 所 示 : 


CAP_DAC_OVERRIDE 


越过 文件 或 目录 的 访问 限制 (数据 访问 控制 或 DAC) 的 能 力 。 


ES 
Le 
入 
> 
二 








CAP_NET_ADMIN 

执行 网 络 管理 任务 的 能 力 ， 包 括 那些 能 影响 网 络 接口 的 任务 。 
CRP_SYS_MODULE 

载 人 或 卸 除 内 核 模 块 的 能 力 。 
CAP_SYS_RAWIO 

执行 “ 裸 ”LIO 操作 的 能 力 。 例 如 ， 访 问 设备 端 11 或 直接 与 USB 设备 通信 。 
CAP_SYS_ADMIN | 

截获 的 能 力 、 它 提供 了 访问 许多 系统 管理 操作 的 途径 。 
CAP_SYS_TTY_CONFIG 

执行 tty 配置 任务 的 能 力 。 


在 执行 一 项 特权 操作 之 前 , 设备 驱动 程序 应 该 检查 调用 进程 是 否 有 合适 的 权能 ; 如 果 不 
进行 这 类 检查 ,将 导致 用 户 进程 执行 非 授权 操作 ， 从 而 影响 系统 稳定 性 或 安全 性 。 权 能 
的 检查 通过 capable 国 数 实现 (定义 在 <sysisched.h> 中 ): 


int capablelint capability); 


在 scul! 示 例 驱 动 程序 中 , 任何 用 户 都 被 允许 查询 quantum 和 quantum 集 的 大 小 。 但 是 只 
有 授权 用 户 可 以 更 改 这 些 值 ， 因 为 不 恰当 的 值 会 降低 系统 性 能 。scul! 的 ioct1 实现 了 在 
必要 时 检查 用 户 的 特权 级 别 : 


it (! capable (CAP_SYS_ADMIN)) 
return -EPERM; 


因为 缺少 针对 该 任务 的 更 多 特定 权能 ， 所 以 这 里 使 用 了 CaP_SYS_ADMIN。 


ioctl 命令 的 实现 
scull 的 ioctl 实现 中 只 传递 设备 的 可 配置 参数 ， 因 此 看 起 来 很 简单 : 
Switchftcmd) { 


case SCULL_IOCRESET: 
scull_quantum = SCULL_QUANTUM; 
scull_qset = SCULL_QSET; 
break; 


case SCULL_IOCSQUANTUM: /* Set: arg 指向 参数 值 */ 
it (! capable (CAP_SYS_ADMIN)) 
return -EPERM; 
retval = _ _get_userl(scull_ quantum, {int 
break; 


_USer *)arg); 
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case SCULL_IOCTQUANTUM: /* Tell: arg 本 身 就 是 参数 值 */ 
if (! capable (CAP_SYS_ADMIN) ) 
return -EPERM; 
scull quantum = arg; 
break; 


case SCULL_IOCGQUANTUM: /* Get: arg 是 指向 结果 的 指针 */ 
retval = _ _put userl(scull_quantum, (int user *)arg}); 
break; 


case SCULL_IOCQQUANTUM: /* Query: 返回 结果 (结果 是 正 值 ) */ 
return scull_ quantum; 


case SCULL_IOCXQUANTUM: /* exchange: 将 arg 作为 指针 使 用 */ 
if (! capable (CAP_SYS_ADMIN)) 
return -EPERM; 
tmp = scull_quantum; 


retval = _ _get_user(scull_quantum, (int _ _user *)arg); 
if (retval = = 0) 

retval = _ _put_user(tmp, (int _ _user *)arg); 
break; 


case SCULL_IOCHQURNTUM: /* sHift: 和 Tell + Query 类 似 */ 
if {! capable {CAP_SYS_ADMIN)) 
return -EPERM; 
tmp = scull_quantum; 
scull_ quantum = arg; 
return tmp; 


default: /* 元 余 ， 因为 cmd 已 根据 MAXNR 检查 过 了 */ 
return -ENOTTY; 


} 
return retval; 


scul! 中 还 包括 6 个 操作 scull_qset 的 人 口 ,它们 和 scull_quantum 的 相应 人 口 是 一 
样 的 ， 这 里 不 再 装 述 。 


从 调用 方 的 观点 (例如 从 用 户 空间 ) 看 ， 传 送 和 接收 参数 的 6 种 途径 如 下 : 


int quantum; 


ioctl {fd,SCULL IOCSQUANTUM, &quantum); /* 通过 指针 设置 */ 
ioctl (fd, SCULL IOCTQUANTUM, quantum); /* 通过 值 设置 */ 
ioctl (fd, SCULL_IOCGQUANTUM, &quantum); /* 通过 指针 获取 */ 
quantum = ioctl (fqd,SCULL_IOCQQUANTUM); /* 通过 返回 值 获取 */ 
ioctl {fd,SCULL IOCXQUANTUM, &quantum); /* 通过 指针 交换 */ 


quantum = ioctl(fd,SCULL_IOCHQUANTUM，quantum) ; /* 通过 值 交换 */ 


当然 ， 正 常 的 驱动 程序 不 会 混用 多 种 调用 模式 ， 在 这 里 只 是 为 了 示范 各 种 不 同 的 方法 。 
不 过 , 通常 情况 下 数据 交换 形式 应 该 保持 一 致 、 要 么 都 用 指针 ,要 么 都 用 数值 ， 尽量 避 
免 混 用 。 
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非 ioctl 的 设备 控制 


有 了 时 通过 向 设备 写 入 控制 序列 可 以 更 好 地 控制 设备 ,在 控制 台 驱 动 程序 中 就 使 用 了 这 一 
技术 ， 称 为 “ 转 义 序列 (escape sequence)”， 用 于 控制 移动 光标 、 改 变 默 认 颜色 或 执行 
其 他 的 配置 任务 。 用 这 种 方法 实现 设备 控制 的 好 处 是 , 用 户 仅 通过 写 数据 就 可 以 控制 设 
备 , 无需 使 用 (有 时 述 得 编写 ) 配置 设备 的 程序 。 如 果 我 们 用 这 种 方式 控制 设备 ， 发 出 
命令 的 程序 黄 至 无 需 运行 在 设备 所 在 的 同一 系统 上 。 


例如 ，sertrerm 程 序 通过 打印 转 义 序列 来 配置 控制 台 (或 某 个 终端 )。 控制 程序 可 以 运行 
在 韭 被 控 设 备 所 在 的 计算 机 上 ， 然 后 用 一 个 简单 的 数据 流 重 定向 就 可 以 完成 配置 工作 。 
每 次 我 们 运行 一 个 远程 的 tty 会 话 时 ， 就 会 发 生 这 种 情况 : 转 义 序列 从 远程 打印 ， 而 影 
响 的 却 是 本 地 tty; 当然 ， 这 一 技术 不 仅仅 限于 tty 设备 。 


通过 打印 序列 进行 控制 的 缺点 是 , 它 给 设备 增加 了 策略 限制 。 例 如， 只 有 确定 控制 序列 
不 会 出 现在 写 和 设备 的 正常 数据 中 时 ， 才 能 使 用 这 种 技术 。 对 tty 设备 来 讲 ， 只 能 部 分 
满足 这 个 要 求 。 尽管 文本 显示 设备 的 用 途 是 显示 ASCII 字 符 . 但 有 时 写 入 数据 流 中 也 会 
出 现 控制 字符 ， 从 而 影响 控制 台 的 设置 。 例 如 ， 对 一 个 二 进 制 文件 使 用 car 命令 时 ， 因 
为 输出 可 能 包含 任何 字符 ， 其 结果 是 经 常会 造成 控制 台 的 字体 错误 。 


通过 写 人 来 控制 的 方式 非常 适合 于 那 种 不 传送 数据 而 只 响应 命令 的 设备 ， 如 机 器 人 。 


例如 , 笔者 编写 过 一 个 驱动 程序 ,该 驱动 程序 控制 相机 在 两 个 轴 上 移动 。 在 这 个 驱动 程 
序 里 ,“ 设 备 ” 只 是 一 对 老式 的 步 进 马达 , 不 能 读 写 。 "发送 数据 流 ” 的 概念 对 步 进 马达 
来 说 没什么 意义 。 在 这 种 情况 下 ,驱动 程序 将 所 写 的 数据 解释 为 ASCII 命 令 ,并 把 请 求 
转换 为 脉冲 序列 来 操纵 步 进 马达 。 这 种 思路 ， 与 给 调制 解 调 器 发 送 AT 指令 以 设置 通信 
的 方法 基本 类 似 , 主要 区 别 在 于 连接 调制 解 调 器 的 串口 还 要 发 送 真正 的 数据 。 直接 设备 
控制 的 优点 是 使 用 cat 就 可 以 移动 相机 ， 而 不 必 编 写 和 编译 用 于 实现 ioct 调用 的 代码 。 


当 编写 这 种 “面向 命令 的 ”驱动 程序 时 , 没什么 必要 实现 ioct 方 法 。 在 解释 器 中 新 增 一 
条 指令 ， 其 实现 和 使 用 都 更 简单 


尽管 如 此 ， 有 时 可 能 需要 做 相反 的 事情 : 不 是 用 wrire 解释 器 来 避免 使 用 ioct1， 而 是 只 
使 用 iocrl, 完全 不 使 用 wrire。 同 时 , 驱动 程序 附带 了 一 个 特定 的 命令 行 工 具 , 专门 负责 
把 命令 送 给 驱动 程序 。 这 种 方法 把 内 核 空间 的 复杂 性 转移 到 了 用 户 空间 , 这 样 处 理 起 来 
可 能 会 容易 些 , 并 且 有 助 于 缩小 驱动 程序 的 规模 ,然而 , 用户 却 无 法 再 使 用 简单 的 命令 
(如 cat 或 echo) 来 操作 驱动 程序 。 
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阻塞 型 VO 


在 第 三 章 中 , 我 们 讨论 了 如 何 实现 驱动 程序 的 read 和 write 方法。 现在 我 们 讨论 另 一 个 
重要 问题 : 如 果 驱 动 程序 无 法 立即 满足 请 求 ,该 如 何 响应 ? 当 数 据 不 可 用 时 , 用户 可 能 
调用 read; 或 者 进程 试图 写 人 数据 , 但 因为 输出 缓冲 区 已 满 , 设备 还 未 准备 好 接受 数据 。 
调用 进程 通常 不 会 关心 这 类 问题 ,程序 员 只 会 简单 调用 read 和 write， 然后 等 待 必 要 的 
工作 结束 后 返回 调用 。 因 此 , 在 这 种 情况 下 , 我 们 的 驱动 程序 应 该 (默认 ) 阻塞 该 进程 ， 
将 其 置 入 休眠 状态 直到 请 求 可 继续 。 


这 一 小 节 说 明了 如 何 使 进程 进入 休眠 并 在 将 来 唤醒 。 不 过 , 我 们 首先 要 解释 一 些 新 的 概 


休眠 的 简单 介绍 


“休眠 (sleep )” 对 进程 来 讲 意味 着 什么 ” 当 一 个 进程 被 置信 休眠 时 , 它 会 被 标记 为 一 种 
特殊 状态 并 从 调度 器 的 运行 队列 中 移 走 。 直到 某 些 情况 下 修改 了 这 个 状态 , 进程 才 会 在 
任意 CPU 上 调度 , 也 即 运行 该 进程 。 休眠 中 的 进程 会 被 搁置 在 一 边 , 等 待 将 来 的 某 个 事 
件 发 生 。 


对 Linux 设备 驱动 程序 来 讲 ,让 一 个 进程 进入 休 卢 状态 很 容易 。 但 是 ,为 了 将 进程 以 一 
种 安全 的 方式 进入 休眠 ， 我 们 需要 牢记 两 条 规则 。 


第 一 条 规则 是 : 永远 不 要 在 原子 上 下 文中 进入 休眠。 我 们 已 经 在 第 五 章 介绍 过 原子 操作 ， 
而 原子 上 下 文 就 是 指 下 面 这 种 状态 : 在 执行 多 个 步骤 时 , 不 能 有 任何 的 并 发 访问 。 这 意 
味 着 ， 对 休眠 来 说 ,我 们 的 驱动 程序 不 能 在 拥有 自 旋 锁 、seqlock 或 者 RCU 锁 时 休眠 。 
如 果 我 们 已 经 禁止 了 中 断 ， 也 不 能 休眠。 在 拥有 信号 量 时 休 卢 是 合法 的 , 但 是 必须 仔细 
检查 拥有 信号 量 时 休 眼 的 代码 。 如果 代 码 在 拥有 信号 量 时 休 椭 , 任何 其 他 等 待 该 信号 量 
的 线程 也 会 休 卢 , 因此 任何 拥有 信号 量 而 休 卢 的 代码 必须 很 短 , 并 且 还 要 确保 拥有 信号 
量 并 不 会 阻塞 最 终 会 唤醒 我 们 自己 的 那个 进程 。 


另外 一 个 需要 铭记 的 是 : 当 我 们 被 唤醒 时 ,我 们 永远 无 法 知道 休眠 了 多 长 时 间 ， 或 者 休 
眠 期 间 都 发 上 生 了 些 什 么 事情 ,我们 通常 也 无 法 知道 是 否 还 有 其 他 进程 在 同一 事件 上 休眠 ， 
这 个 进程 可 能 会 在 我 们 之 前 被 唤醒 并 将 我 们 等 待 的 资源 拿 走 。 这 样 , 我 们 对 唤醒 之 后 的 
状态 不 能 做 任何 假定 ， 因 此 必须 检查 以 确保 我 们 等 待 的 条 件 真正 为 真 。 


另外 一 个 相关 的 问题 是 , 除非 我 们 知道 有 其 他 人 会 在 其 他 地 方 唤醒 我 们 , 否则 进程 不 能 
休眠 。 完 成 唤醒 任务 的 代码 还 必须 能 够 找到 我 们 的 进程 ,这 样 才能 唤醒 休眠 的 进程 。 为 
确保 唤醒 发 生 , 需 整体 理解 我 们 的 代码 , 并 清楚 地 知道 对 每 个 休眠 而 言 哪些 事件 序列 会 
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结束 休眠 。 能 够 找到 休眠 的 进程 意味 着 ， 需 要 维护 一 个 称 为 等 待 队列 的 数据 结构 。 顾 名 
思 义 ， 等 待 队列 就 是 一 个 进程 链表 ， 其 中 包含 了 等 待 某 个 特定 事件 的 所 有 进程 。 


在 Linux 中 ， 一 个 等 待 队列 通过 一 个 “等 待 队 列 头 〈wait queue head )” 来 管理 ， 等 待 
队列 头 是 一 个 类 型 为 wait_queue_head 上 的 结构 体 , 定义 在 <iinux/wait.h> 中 。 可 通过 
如 下 方法 静态 定义 并 初始 化 一 个 等 待 队列 头 : 


DECLARE_WAIT_QUEUE_HEAD (name) ; 
或 者 使 用 动态 方法 : 


wait_queue _ head_t my_queue; 
init waitqueue_head{&my_queue}):; 


稍 后 我 们 将 继续 解释 等 待 队 列 结构 ， 但 现在 还 需要 继续 讨论 休眠 和 唤醒 。 


简单 休眠 


当 进程 休眠 时 ， 它 将 期 待 某 个 条 件 会 在 未 来 成 为 真 。 我 们 前 面 提 到 ， 当 一 个 休眠 进程 被 
唤醒 时 ， 它 必须 再 次 检查 它 所 等 待 的 条 件 的 确 为 真 。Linux 内 核 中 最 简单 的 休眠 方式 是 
称 为 wait_event 的 宏 (以 及 它 的 几 个 变种 ); 在 实现 休 卢 的 同时 , 它 也 检查 进程 等 待 的 条 
件 。wait_event 的 形式 如 下 : 

wait_event (queue, condition) 

wait_event_interruptible(queue, condition} 


wait_event_timeout (queue, condition, timeout) 
wait_event_interruptible. timeout (queue, condition, timeout) 


在 上 面 所 有 的 形式 中 ，queue 是 等 待 队列 头 。 注意， 它 “ 通 过 值 ”传递 ， 而 不 是 通过 
指针 。condition 是 任意 一 个 布尔 表达 式 , 上 面 的 宏 在 休 卢 前 后 都 要 对 该 表达 式 求 值 ; 在 条 
件 为 真 之 前 ， 进 程 会 保持 休 眼 。 注 意 ， 该 条 件 可 能 会 被 多 次 求 值 ， 因 此 对 该 表达 式 的 求 
值 不 能 带 来 任何 副作用 。 


如 果 使 用 wait_event, 进程 将 被 置 于 非 中 断 休 卢 , 如 我 们 先前 提 到 的 , 这 通常 不 是 我 们 所 
期 望 的 。 最 好 的 选择 是 使 用 wait_event_interruptible, 它 可 以 被 信号 中 断 。 这 个 版 本 可 返 
回 一 个 整数 值 , 非 零 值 表示 休眠 被 某 个 信号 中 断 ,而 驱动 程序 也 许 要 返回 ~ERESTARTSYS。 
后 面 的 两 个 版 本 (wait_event_timeout 和 wait_event_interruptible_timeout) 只 会 等 待 限 
定 的 时 间 ; 当 给 定 的 时 间 (以 jiffy 表示 ,第 七 章 将 讨论 ) 到 期 时 ， 这 两 个 宏 都 会 返回 0 
值 ， 而 无 论 condition 如 何 求 值 。 


当然 , 整个 过 程 的 另外 一 半 是 唤醒 。 其 他 的 某 个 执行 线程 (可 能 是 另 一 个 进程 或 者 中 断 


处 理 例 程 ) 必须 为 我 们 执行 唤醒 ,因为 我 们 的 进程 正在 休 眼 中 。 用 来 唤醒 休眠 进程 的 基 
本 函数 是 wake_up， 它 也 有 多 种 形式 ， 但 这 里 先 介 绍 其 中 两 个 : 
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void wake_up (wait_dueue_headq_t *queue); 
void wake up_interruptible (wait_queue head t *queue}); 


wake_zp 会 唤醒 等 待 在 给 定 queue 上 的 所 有 进程 (实际 情况 要 复杂 -- 些 , 读者 很 快 会 看 
到 )。 另 一 个 形式 (wake_up_interruptible) 只 会 唤醒 那些 执行 可 中 断 休眠 的 进程 。 通常 ， 
这 两 种 形式 很 难 区 分 ( 如果 使 用 可 中 断 休眠 的 话 ); 在 实践 中 , 约定 作 潜 是 在 使 用 wait_ 
event 上 时 使 用 wake_up ,而 在 使 用 wait_event_interruptible 时 使 用 wake_up_interruptible。 


现在 我 们 看 看 休眠 和 唤醒 的 一 个 简单 例子 。 在 示例 源 代 码 中 ， 读 者 可 以 找到 一 个 称 为 
sleepy 的 模块 、 它 实现 了 一 个 具有 简单 行为 的 设备 : 任何 试图 从 该 设备 上 读 取 的 进程 均 
被 置 于 休眠 。 只 要 某 个 进程 向 该 设备 写 信 , 所 有 体 眼 的 进程 就 会 被 唤醒 。 这 一 行为 通过 
下 面 的 read 和 write 方法 实现 : 


Static DECLARE_WAIT_QUEUE_HEAD (wq}; 
static int flag = 0; 
ssize_t sleepy_read {struct file *filp, char _ user *buf, size_t count, 
lofift *pos) 
{ 
Printk {KERN_DEBUG "process %i (%s) going to sleep\n", 
current->pid, current->comm); 
wait_event_interruptible(wq, flag != 0); 
flag = 0; 
Printk (KERN DEBUG "awoken %i {(%s)\n", current->pid, current->comm); 
Toaturn be BOR */ 
} 


ssize_t sleepy_write (Struct file *filp, const char _user *buf, size_t 
count, 


loff_t *pos) 


{ 
printk{KERN_DEBUG "process $i (%s) awakening the readers...\n', 
Current->pid, current->comm); 
flag = 1; 
wake_up_interruptible(&wq); 
return count; /* 成 功 并 避免 重 试 */ 
} 


注意 上 面 例子 中 flag 变量 的 使 用 。 因 为 wait_event_interrutible 要 检查 改变 为 真 的 条 
件 ， 因 此 我 们 使 用 Elag 来 构造 这 个 条 件 。 


请 读者 想像 当 两 个 进程 在 等 待 时 调用 sieepy_write, 会 发 生 什 么 情况 。 因 为 sleepy_read 
会 在 唤醒 时 将 flag 重 置 为 0， 因 此 , 读者 会 认为 第 二 个 被 唤醒 的 进程 会 立即 进入 休 卢 
状态 。 在 单 处 理 器 系统 中 ,这 几乎 是 始终 会 发 生 的 情况 。 然 而 ,我们 必须 理解 并 不 是 永 
远 会 发 生 这 种 情况 。 wake_up_interruptible 调 用 会 唤醒 两 个 休眠 的 进程 , 而 在 重 置 f1ag 
之 前 , 这 两 个 进程 都 完全 有 可 能 注意 到 标志 为 非 零 。 对 这 个 不 重要 的 模块 来 讲 , 这 种 竞 
态 并 不 重要 。 但 在 真实 的 驱动 程序 中 , 这 种 类 型 的 竞 态 可 能 导致 很 难 诊断 的 、 偶 然 的 贿 
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涡 。 如 果 要 确保 只 有 一 个 进程 能 看 到 韭 零 值 , 则 必须 以 原子 方式 进行 检查 。 我 们 将 很 快 
看 到 真实 的 驱动 程序 如 何 处 理 这 类 问题 ， 但 首先 要 讨论 另外 -- 个 主题 。 


阻塞 和 非 阻 塞 型 操作 


在 分 析 用 于 休眠 进程 的 、 功 能 完整 的 read 和 write 方法 之 前 ， 还 有 最 后 一 个 问题 需要 讨 
论 。 在 实现 正确 的 Unix 语 勾 时 , 有 时 我 们 要 实现 非 阻 塞 的 操作 , 尽管 操作 不 能 完整 执行 。 


有 时 调用 进程 会 通知 我 们 它 不 想 阻 塞 , 而 不 管 其 MO 是 否 可 以 继续 。 显 式 的 非 阻 塞 VO 由 
filp->f_flags 中 和 的 0_NONBLOCK 标 志 决 定 。 这 个 标志 在 <linux/fcnti.h> 中 定义 , 这 
个 头 文件 自动 包含 在 <linux/fs.h> 中 。 这 个 标志 的 名 字 取 自 “ 非 阻塞 打开 (open- 
nonblock )”， 因 为 它 可 以 在 打开 时 指定 (而 且 本 来 也 只 能 在 那 时 指定 )。 浏 览 一 下 源 代 
码 , 会 发 现 一 些 对 0_NDELAY 标志 的 引用 ,这 是 0_NONBLOCK 的 另 一 个 名 字 ， 是 为 保 
持 和 System V 代码 的 兼容 性 而 设计 的 。 这 个 标志 在 默认 时 要 被 清除 ， 因 为 等 待 数据 的 
进程 一 般 只 是 休眠 。 在 执行 阻塞 型 操作 (这 是 默认 的 ) 的 情况 下 ,应 该 实现 下 列 动作 以 
保持 和 标准 语义 一 致 : 


。 ”如 果 一 个 进程 调用 了 read 但 是 还 没有 数据 可 读 ， 此 进程 必须 阻塞 。 数 据 到 达 时 进 
程 被 唤醒 ， 并 把 数据 返回 给 调用 者 。 即 使 数据 数目 少 于 count 参数 指定 的 数目 也 
是 如 此 。 

。 ”如 果 一 个 进程 调用 了 write 但 缓冲 区 没有 空间 ,此 进程 必须 阻塞 ， 而 且 必 须 休 眠 在 
与 读 取 进程 不 同 的 等 待 队列 上 。 当 向 硬件 设备 写 人 一 些 数据 , 从 而 腾 出 了 部 分 输出 
缓冲 区 后 , 进程 即 被 唤醒 , wrire 调 用 成 功 。 即 使 缓冲 区 中 可 能 没有 所 要 求 的 count 
字 节 的 空间 而 只 写 入 了 部 分 数据 ， 也 是 如 此 。 


上 面 的 描述 假设 输入 和 输出 缓冲 区 都 存在 ， 实 际 上 它们 也 确实 存在 于 绝 大 多 数 设备 中 。 
输入 缓冲 区 用 于 当 数 据 已 到 达 而 又 无 人 读 取 时 ， 把 数据 暂 存 起 来 避免 丢失 ; 相反 ， 如果 
调用 wrire 时 系统 不 能 接收 数据 ， 就 将 它们 保留 在 用 户 空间 缓冲 区 中 不 致 会 委 失 。 除 此 
以 外 ， 输 出 缓冲 区 几乎 总 是 可 以 提高 硬件 的 性 能 。 


在 驱动 程序 中 实现 输出 缓冲 区 可 以 提高 性 能 ， 这 得 益 于 减少 了 上 下 文 切换 和 用 户 级 /内 
核 级 转换 的 次 数 。 假设 一 个 慢 速 设备 没有 输出 缓冲 区 , 那么 每 次 系统 调用 只 能 接收 一 个 
或 几 个 字符 , 然后 进程 在 write 上 休眠 , 另 一 个 进程 开始 运行 (这 里 有 一 次 上 下 文 切换 )， 
当前 一 个 进程 被 唤醒 后 , 它 重 新 开始 运行 (引起 另 一 次 上 下 文 切换 ), write 返 回 (内 核 / 
用 户 转换 ), 接着 进程 重复 系统 调用 写 人 更 多 数据 (用 户 / 内 核 转换 ), 接着 调用 又 阻塞 ， 
然后 再 次 进行 以 上 的 循环 。 如 果 输 出 缓冲 区 足够 大 ， 那 么 write 调用 首次 操作 就 成 功 了 
一 一 缓存 的 数据 可 以 在 以 后 的 中 断 时 间 送 给 设备 一 一 而 不 必 返 回 用 户 空间 为 第 二 次 或 
第 三 次 的 write 调用 进行 控制 。 显 然 ， 输 出 缓冲 区 多 大 才 合 适 是 与 设备 相关 的 。 
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在 scul! 中 没有 使 用 输入 缓冲 区 ， 因 为 调用 read 时 ,数据 已 经 就 绪 了 。 类 似 地 ， 也 没有 
输出 缓冲 区 , 因为 数据 只 是 简单 地 被 复制 到 与 设备 对 应 的 内 存 区 。 其实 该 设备 本 身 就 是 
一 个 缓冲 区 ， 因 此 不 必 实 现 另 外 的 缓冲 区 。 我 们 将 在 第 十 章 介绍 缓冲 区 的 使 用 。 


如 果 指 定 了 0_NONBLOCK 标 志 , read 和 write 的 行为 就 会 有 所 不 同 。 如 果 在 数据 没有 就 
绪 时 调用 read 或 是 在 缓冲 区 没有 空间 时 调用 wrire， 则 该 调用 简单 地 返回 -EAGAIN。 


读者 可 能 已 经 想到 , 非 阻 塞 型 操作 会 立即 返回 , 使 得 应 用 程序 可 以 查询 数据 。 在 处 理 非 
阻塞 型 文件 时 , 应 用 程序 调用 sidio 函数 必须 非常 小 心 , 因为 很 容易 把 一 个 非 阻 寨 返 回 误 
认为 是 EOF ， 所 以 必须 始终 检查 errno。 


自然 ,0O_NONBLOCK 在 open 方法 中 也 是 有 意义 的 。 它 用 于 在 open 调用 可 能 会 阻塞 很 长 
时 间 的 场合 。 例 如 ， 打 开 一 个 还 没有 进程 向 其 中 写 入 的 FIFO 或 是 访问 一 个 被 锁 住 的 磁 
盘 文 件 。 通 常情 况 下 , 打开 一 个 设备 不 是 成 功 就 是 失败 ,不 必 等 待 外 部 事件 。 但 是 有 时 
候 打 开设 备 需 要 很 长 时 间 的 初始 化 , 这 时 就 可 以 选择 在 open 方法 中 支持 O_NONBLOCK 
标志 ， 如 果 该 标志 被 置 位 ， 则 在 设备 开始 初始 化 后 会 立刻 返回 一 个 -EAGAIN (“try it 
again， 再 试 一 次 ”)。 驱 动 程序 中 也 可 以 实现 阻塞 型 open 以 支持 和 文件 锁 方 式 类 似 的 访 
问 策略 。 在 本 章 的 “替代 EBUSY 的 阻塞 型 open” 一 节 中 就 会 看 到 这 样 一 个 实现 。 


有 些 驱 动 程序 还 为 0_NONBLOCK 实现 了 特殊 的 语义 。 例 如 ， 在 磁带 还 没有 插入 时 打开 
一 个 磁带 设备 通常 会 阻塞 ， 如 果 磁 带 驱动 程序 是 用 O_NONBLOCK 打开 的 ， 则 不 管 磁带 
在 不 在 ，open 都 会 立即 成 功 返 回 。 


只 有 read、write 和 open 文件 操作 受 非 阻塞 标志 的 影响 。 


一 个 阻塞 MO 示例 


最 后 ， 我 们 通过 一 个 示例 来 分 析 实 现 阻塞 IJ/O 的 真实 驱动 程序 方法 。 这 个 例子 来 自 
scullpipe 驱动 程序 ， 它 是 scull 实现 类 管道 设备 的 特殊 形式 。 


在 驱动 程序 内 部 , 阻塞 在 read 调 用 的 进程 在 数据 到 达 时 被 唤醒 ; 通常 硬件 会 发 出 一 个 中 
断 来 通知 这 个 事件 ,然后 作为 中 断 处 理 的 一 部 分 ， 驱 动 程序 会 唤醒 等 待 进程 。scullpipe 
驱动 程序 的 工作 方法 则 不 同 ， 它 不 需要 任何 特殊 的 硬件 或 是 中 断 处 理 程序 就 可 以 运行 。 
我 们 选择 使 用 另 一 个 进程 来 产生 数据 并 唤醒 读 取 进程 ; 类 似 地 , 读 取 进程 用 来 唤醒 等 待 
缓冲 区 空间 可 用 的 写 人 进程 。 


该 设备 驱动 程序 使 用 了 一 个 包含 两 个 等 待 队列 和 一 个 缓冲 区 的 设备 结构 缓冲 区 大 小 可 
以 用 通常 的 方式 配置 (在 编译 、 加 载 或 运行 时 ) 。 
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struct scull pipe { 


wait_queue_head_t ing, outqg; /x 读 取 和 写 入 队列 */ 
char *buffer, *end; /* 缓冲 区 的 起 始 和 结尾 */ 
int buffersize; /* 用 于 指针 计算 */ 
char *rp, *wp; /* 读 取 和 和 写 人 的 位 置 */ 
int nreaders, nwriters; /* 用 于 读 写 打开 的 数量 */ 
struct fasync_struct *async_queue; /* 异步 读 取 者 */ 
struct semaphore sem; /* 互 斥 信号 长 */ 
struct cdev cdev; /* 字符 设备 结构 */ 


}7 


read 实现 负责 管理 阻塞 型 和 非 阻塞 型 输入 ， 如 下 所 示 ; 


static ssize t scull p_read (struct file *filp, char _ _user *buf, size_t Count， 
loff t *f_pos) 
{ 
struct scull pipe *dev = filp->private. data; 


if (down_interruptible{&dev->sem)) 
return -ERESTARTSYS; 


while (dev->rp = = dev->wp) { /* 无 数据 可 读 取 */ 

up(&dev->sem) ; /* 释放 锁 */ 

if (filp->f_flags & O_NONBLOCK) 
return -EAGAIN; 

PDEBUG{"\"%s\" reading: going to sleep\n", current->comm); 

if (wait_event_interruptible(dev->ing, (dev->rp != Gev->wp) ) ) 
return -ERESTARTSYS; /* 信号 , 通知 fs 层 做 相应 处 理 */ 

/* 否则 循环 ， 但 首先 获取 锁 */ 

if (down_interruptible(&dev->sem)) 
return -ERESTARTSYS; 


} 
/* 数据 已 就 绪 ， 返 回 */ 
if {dev->wp > dev->rp) 
count = minlcount, (size_t) (dev->wp - dev->rp})); 
else /* 写 入 指针 回 卷 ， 返回 数据 直到 dev->end */ 
count = min(count, (size,_t) (dev->end - dev->rp})); 
if (copy_to_user(buf, dev->rp, count}))} 1 
up {(&dev->sem); 
return -EFAULT; 
} 
dev->rp += count; 
if (dev->rp = = dev->end) 
dev->rp = dev->buffer; /* 回 卷 */ 
up {gdev->sem); 


/* 最 后 , 唤醒 所 有 写 人 者 并 返回 */ 

wake_up_interruptible{&dev->outq); 

PDEBUG{"\"®%s\" did read %1i bytes\n",current->comm, (long) count); 
return count; 
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可 以 看 到 代码 中 保留 了 一 些 PDEBUG 语 句 。 编译 该 哎 动 程序 时 可 以 启用 消 息 以 便 跟 踪 不 
同 进程 间 的 交互 。 


现在 仔细 看 看 scull_p_read 是 如 何 处 理 等 待 数据 的 , while 循 环 在 拥有 设备 信号 量 时 测 
试 缓冲 区 。 如 果 其 中 有 数据 , 则 可 以 立即 将 数据 返回 给 用 户 而 不 需要 休 卢 , 这样 ， 整 个 
循环 体 就 被 跳 过 了 。 相 反 ， 如果 缓冲 区 为 空 , 则 必须 休眠 。 但 在 休眠 之 前 必须 释放 设备 
信号 量 , 因为 如 果 在 拥有 该 信号 量 时 休 眼 ,任何 写 入 者 都 没有 机 会 来 唤醒 。 在 释放 信号 
车 之 后 ， 快 速 检 查 用 户 请 求 的 是 否 是 非 阻塞 110 ， 如 果 是 ， 则 返回 ， 否 则 调用 


wait_event_interruptible. 


在 上 面 这 个 函数 调用 返回 时 , 说 明 其 他 人 已 经 唤醒 了 我 们 ， 但 我 们 不 知道 到 底 是 什么 情 
况 。 一 种 可 能 性 是 进程 接收 到 一 个 信号 。 包 含 wait_event_interruptible 调用 的 i£ 语句 
检查 这 种 情况 。 这 条 语句 确保 对 信号 进行 正确 的 预定 响应 ， 该 信号 可 能 是 用 来 唤醒 进程 
的 (因为 进程 处 于 可 中 断 睡眠 中 )。 如 果 一 个 信号 到 达 而 且 没 有 被 进程 阻塞 ， 正确 的 动 
作 是 让 内 核 的 上 层 去 处 理 这 个 事件 。 为 此 ， 驱动 程序 返回 给 调用 者 -ERESTARTSYS， 这 
个 值 由 虚拟 文件 系统 层 (VFS ) 内 部 使 用 ， 它 或 者 重启 系统 调用 ， 或 者 给 用 户 空间 返回 
-EINTR。 我 们 将 在 所 有 的 read 和 write 实现 中 使 用 同样 的 语句 进行 信号 处 理 。 


但 是 , 就 算 不 是 因为 信号 而 被 唤醒 , 我 们 还 是 无 法 确信 是 否 有 数据 可 获得 。 其 他 人 可 能 
也 在 等 待 数据 , 而 且 可 能 赢得 竞争 并 拿 走 了 数据 , 因此 , 我 们 必须 重新 获得 设备 信号 量 ， 
只 有 这 样 才 能 测试 读 取 缓 冲 区 (在 while 循环 中 ), 并 真正 知道 我 们 是 否 可 以 将 缓冲 区 
的 数据 返回 给 用 户 。 整个 代码 的 最 终结 果 就 是 , 当 我 们 从 while 循 环 中 退出 时 , 我 们 拥 
有 信号 量 ， 而 且 缓 冲 区 中 包含 有 可 使 用 的 数据 。 


出 于 完整 性 考虑 , 还 要 注意 sculL_P_read 可 能 在 我 们 获取 设备 信号 量 之 后 休眠 的 另外 一 
种 情况 , 即 调用 copy_to_user。 如 果 scull 在 内 核 和 用 户 空间 复制 数据 时 休眠 ， 则 会 在 拥 
有 设备 信号 量 时 休眠 。 在 这 种 情况 下 , 拥有 信号 量 是 可 以 接受 的 ， 因为 这 不 会 死 锁 系统 
(我 们 知道 内 核 会 将 数据 复制 到 用 户 空间 然后 唤醒 我 们 ,同时 不 会 试图 锁 上 同一 信号 量 )， 
而 且 重要 的 是 ， 在 驱动 程序 休 眼 时 ， 设 备 的 内 存 数组 不 会 被 修改 。 


高 级 休眠 


我 们 介绍 过 的 函数 可 以 满足 许多 驱动 程序 的 休眠 需求 。 但 是 在 某 些 情况 下 ， 我 们 需要 对 
Linux 的 等 待 队列 机 制 有 更 加 深入 的 理解 。 复杂 的 锁定 以 及 性 能 需求 会 强制 驱动 程序 使 
用 低层 的 函数 来 实现 休 眼 。 本 小 节 中 ,我 们 将 讨论 一 些 低层 次 的 细节 ， 以 便 理解 进程 休 
眠 时 到 底 发 生 了 什么 事情 。 
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进程 如 何 休眠 

如 果 读 者 浏览 <linuxiwait.h> 头 文件 ,将 看 到 wait_queue_head_t 类 型 后 面 的 数据 结构 
相当 简单 , 它 由 一 个 自 旋 锁 和 一 个 链表 组 成 。 链表 中 保存 的 是 一 个 等 待 队 列 入 口 , 该 入 
口 声明 为 wait_queue 上 类型。 这 个 结构 中 包含 了 休 了 眼 进程 的 信息 及 其 期 望 被 唤醒 的 相 
关 细 节 信 息 。 


将 进程 置 十 休眠 的 第 一 个 步骤 通常 是 分 配 并 初始 化 一 个 wait_queue_t 结 构 , 然后 将 其 
加 入 到 对 应 的 等 待 队列 。 在 完成 这 些 工 作 之 后 , 不 管 谁 负 责 唤醒 该 进程 ,都 能 找到 正确 
的 进程 。 


第 二 个 步 又 是 设置 进程 的 状态 , 将 其 标记 为 休 眼 。<linux/sched.h> 中 定义 了 多 个 任务 状 
态 。TASK_RUNNING 表 示 进 程 可 运行 , 尽管 进程 并 不 一 定 在 任何 给 定时 间 都 运行 在 某 个 
处 理 器 上 。 有 两 个 状态 表明 进程 处 于 休眠 状态 : TASK_INTERRUPTIBLE 和 TASK_ 
UNINTERRUPUTIBLE; 显然 ,它们 分 别 对 应 于 两 种 休眠 。 其 他 的 状态 对 驱动 程序 编写 者 
来 说 通常 不 需要 关心 。 


在 2.6 内核 中 ,通常 不 需要 驱动 程序 代码 来 直接 操作 进程 状态 。 但 是 如 果 需 要 ， 则 可 调 
用 : 


void set_current_statel(int new_state); 


在 老 的 代码 中 ， 读 者 通常 可 能 会 找到 下 面 的 语句 : 


current->state = TASK_INTERRUPTIBLE; 


但 是 我 们 不 鼓励 以 这 种 方式 直接 修改 current， 因 为 数据 结构 的 改变 很 容易 导致 该 代 
码 无 法 运行 , 而 且 上 述 修改 进程 当前 状态 的 代码 并 不 会 将 自己 置 于 休眠 状态 。 通 过 改变 
当前 状态 ， 我 们 只 是 改变 了 调度 器 处 理 该 进程 的 方式 ， 但 尚未 使 进程 让 出 处 理 器 。 


放弃 处 理 器 是 最 后 的 步骤 , 但 在 此 之 前 还 要 做 另外 一 件 事情 : 我 们 必须 首先 检查 休眠 等 
待 的 条 件 。 如 果 不 作 这 个 检查 , 可 能 引入 竞 态 . 试想 , 如 果 在 上 述 过 程 中 条 件 变 成 了 真 ， 
而 其 他 线程 正 试图 唤醒 我 们 , 这 时 会 发 生 什么 呢 ? 我 们 会 丢掉 被 唤醒 的 机 会 , 从 而 可 能 
休眠 更 长 的 时 间 。 因 此 ， 深 入 到 休眠 的 代码 ， 我 们 会 看 到 下 面 的 语句 : 


if (!condition) 
Schedulel): 


在 设置 了 进程 状态 之 后 检查 条 件 ,我 们 解决 了 所 有 可 能 的 事件 序列 。 如果 我 们 等 待 的 条 
件 在 设置 进程 状态 前 发 生 , 我 们 会 在 这 个 检查 中 注意 且 不 会 真正 休眠 。 如 果 唤醒 在 其 后 
发 生 ， 不 管 我 们 是 否 真正 进入 休眠 ， 进 程 都 会 被 置 于 可 运行 状态 。 
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当然 ， 对 schedule 的 调用 将 调用 调度 器 ， 并 让 出 CPU。 无 论 在 什么 时 候 调 用 这 个 函数 ， 
都 将 告诉 内 核 重新 选择 其 他 进程 运行 , 并 在 必要 时 将 控制 切换 到 那个 进程 。 这 样 , 我 们 
无 法 知道 ， 在 调度 返回 到 我 们 的 代码 之 前 需要 多 少时 间 。 

在 if 测试 以 及 可 能 的 schedule 调用 (并 返回 ) 之 后 ， 需 要 完成 一 些 清理 工作 。 因 为 代 
码 不 再 期 望 休眠 ,因此 必须 确保 任务 状态 被 重 置 为 TASK_RUNNING。 如 果 代码 从 scheduie 
中 返回 , 则 不 需要 这 一 步 。 但是， 如 果 因 为 不 需要 休 眼 而 跳 过 了 对 schedule 的 调用 , 那 
么 进程 状态 就 是 不 正确 的 。 将 进程 从 等 待 队列 中 移 走 也 是 必要 的 , 否则 它 可 能 会 被 多 次 
唤醒 。 


手工 休眠 

在 早期 的 Linux 内 核 版 本 中 ,特殊 休眠 需要 程序 员 手工 处 理 上 面 讲 过 的 所 有 步骤 。 这 是 
一 个 宛 长 而 乏味 的 过 程 , 涉及 到 相当 多 的 、 容 易 导致 错误 的 代码 。 如 果 开 发 者 愿意 , 仍 
可 以 沿用 这 种 手工 休眠 的 方式 。<linux/sched.h> 中 包含 有 所 有 必需 的 定义 ,而 内 核 源 代 
码 中 也 含有 大 量 的 例子 。 但 是 ， 也 有 一 种 更 加 简单 的 方式 。 

第 一 个 步 受 是 建立 并 初始 化 一 个 等 待 队列 人 口 。 这 通常 通过 下 面 的 宏 完 成 : 


DEFINE_WRIT (my_wait); 


其 中 的 name 是 等 待 队列 入 口 变 量 的 名 称 ,我 们 也 可 以 通过 下 面 两 个 步 又 完成 这 个 工作 : 


wait_queue_t my_wait; 
init_wait(&my wait); 


但 是 ， 在 实现 休眠 的 循环 前 放置 DEFINE_WAIT 行 通常 更 加 容易 些 。 
下 一 个 步 又 是 将 我 们 的 等 待 队列 入 口 添加 到 队列 中 , 并 设置 进程 的 状态 。 这 两 个 任务 都 
可 通过 下 面 的 函数 完成 : 

void brepare_to_wait (wait_queue_head t *queue, 


wait_queue_t *wait, 
int state); 


其 中 ，queue 和 wait 分 别 是 等 待 队 列 头 和 进程 人口。 state 是 进程 的 新 状态 ; 它 应 该 
是 TASK_INTERRUPTIBLE (用 于 可 中 断 休眠 ， 通 常 也 是 我 们 所 期 望 的 ) 或 者 
TASK_UNINTERRUPTIBLE ( 用 于 不 可 中 断 休眠)。 


在 调用 prepare_to_wait 之 后 , 进程 即 可 调用 schedule ,当然 在 这 之 前 , 应 确保 仍 有 必要 
等 待 .一旦 schedule 返 回 , 就 到 了 清理 时 间 了 。 这 个 工作 也 可 通过 下 面 的 特殊 函数 完成 : 


void finish wait (wait_queue_head t *queue, wait_queue_t *wait); 
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之 后 ， 代 码 可 测试 其 状态 ， 并 判断 是 否 需要 重新 等 待 。 


现在 看 看 实际 的 例子 。 前 面 我 们 分 析 了 scullpipe 的 read 方 法 ,其 中 使 用 了 wait_event。 
但 这 个 驱动 程序 的 wrire 方 法 使 用 了 prepare_1o_wait 和 finish_wait。 通 常 ， 我们 不 应 该 
在 一 个 驱动 程序 中 混合 使 用 两 种 方法 ,但 是 这 里 只 是 希望 说 明 处 理 休眠 的 两 种 方法 而 已 。 


为 了 完整 ， 我 们 首先 看 看 wrire 方法 本 身 : 
/* 有 多 少 空间 被 释放 ? */ 


static int spacefree(struct scull_pipe *dev) 
{ 
if {dev->rp = = dev->wp) 
return dev->buffersize - 1; 
return ({dev->rp + dev->buffersize - dev->wp}) % dev->buffersize) - 1; 
} 


static ssize t scul1_p_write(Sstruct file *filp, const char ~- _user *buf, 
size_t count, 
LOoff tr rf Dos 
{ 
struct scull_pipe *dev = filp->private_data; 
int result; 


if (down_ interruptible(&dev->sem)) 
return -ERESTARTSYS; 
/* 确保 有 空间 可 写 人 */ 
result = scull_getwritespace{(dev, filp); 
if (result) 
return result; /* scull_getwritespace 会 调用 up(&dev->sem) */ 


/* 有 空间 可 用 ， 接 受 数据 */ 
count = min(count, (size_t)spacefree(dev)}); 
it {dev->wp >= dev->rp) 
count = min{count，(size_t) (dev->end - dev->wp)); /* 直到 缓冲 区 结尾 */ 
else /* 写 人 指针 问卷 ， 填充 到 rp-1 */ 
count = min{count, (size_t) (dev->rp - dev->wp - 1)); 
PDEBUG ("Going to accept %1i bytes to %p from Wp\n", (long)count, dev->wp, buf}); 
if. {copy_from user(dev->wp, buf, count)) { 
up (&dev->sem); 
return -EFAULT; 
J 
dev->wp += count; 
if {dev->wp = = dev->end) 
Gev->wp = dev->buffer; /* 回 卷 */ 
up (kdev->sem); 


/* 最 后 ,唤醒 读 取 者 */ 
wake_up_interruptible (gdev->inq); /* 阻塞 在 read() 和 select() 上 */ 


/* 通知 异步 读 取 者 ， 将 在 本 章 后 面 解 释 */ 
if (dev->async_queue) 
kill_fasync (&dev->async_queue, SIGIO, POLL_IN); 
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PDEBUG("\"%s\”did write %1i bytes\n",current->comm, (long)count); 
return count; 


} 


代码 看 起 来 和 read 方法 非常 相似 ， 除 了 我 们 将 休 眼 的 代码 放 在 了 独立 的 
scull_getwritespace 函数 中 。 该 函数 确保 新 数据 有 可 用 的 缓 仲 区 空间 ， 并且 在 必要 时 休 
眠 ， 直 到 空间 可 用 。 一 旦 获得 缓冲 区 空间 ，scull_p_write 即 可 将 用 户 数 据 复制 到 其 中 ， 
调整 指针 ， 并 唤醒 可 能 正在 等 待 读 取 数 据 的 任何 进程 。 


处 理 真 正 休 眼 的 代码 如 下 : 


/* 等 待 有 可 用 于 写 入 的 空间 ; 调用 者 必须 拥有 设备 信号 量 。 
* 在 错误 情况 下 , 信号 量 将 在 返回 前 释放 。 */ 
static int scull. getwritespace{struct scull pipe *dev, struct file *filp) 
{ 
while (spacefreeldev) = = 0) { /* full */ 
DEFINE WAIT(wait)}); 


up(&dev->sem); 
if (filp->f_flags & O_ NONBLOCK) 
return -EAGAIN; 
PDEBUG ("\"%s\" writing: going to sleep\n'",current->comm); 
prepare_ to wait(&kdev->outq, &wait, TASK_INTERRUPTIBLE); 
if {spacefree(dev) = = 0) 
schedule{); 
finish_wait{&dev->outq, &wait); 
if {signal_pending {current)) 
return -ERESTARTSYS; /* 信号 : 通知 fs 层 做 相应 处 理 */ 
if (down_interruptible{&kdev->sem)) 
return -ERESTARTSYS; 
} 
return 0; 


} 


再 次 注意 其 中 的 while 循环。 如 果 不 需 要 休眠 的 情况 下 空间 即 可 用 , 该 函数 立即 返回 。 
否则 , 该 函数 释放 设备 信号 量 并 等 待 。 代码 使 用 了 DEFINE_WAIT 来 设置 等 待 队列 人 口 ， 
并 调用 prepare_to_wait 来 进入 真正 的 休 卢 。 之 后 对 缓冲 区 做 必要 的 检查 一 一 我 们 必须 
处 理 以 下 情况 : 在 我 们 进入 while 循 环 (并 释放 信号 量 ) 之 后 , 但 在 将 自己 放 到 等 待 队 
列 之 前 , 缓冲 区 空间 变 得 可 用 。 若 不 作 这 个 检查 , 如果 读 取 进 程 在 此 时 完全 清空 了 缓冲 
区 ， 则 我 们 将 失去 唯一 被 唤醒 的 机 会 ， 从 而 会 永远 休眠。 在 到 达 必 须 休眠 的 条 件 时 ， 即 
可 调用 scheaule。 


对 上 述 情 况 还 值得 再 次 考虑 : 如 果 唤 醒 发 生 在 i£ 测试 以 及 对 schedule 的 调用 之 间 ， 会 
发 生 什么 昵 ” 在 这 种 情况 下 ， 不 会 出 现任 何 问 题 。 休 有 卢 将 会 把 进程 状态 置 为 
TASK_RUNNING， 而 schedule 会 返回 尽管 根本 没 必要 调用 Schedule。 只 要 测试 发 
生 在 进程 已 经 将 自己 放 在 等 待 队列 并 修改 了 其 状态 之 后 ， 就 不 会 出 现任 何 问 题 。 
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在 最 后 , 我 们 调用 finish_wait。 对 signal_pending 的 调用 告诉 我 们 是 否 因为 信号 而 被 唤 
醒 。 如 果 是 ,我 们 需要 返回 给 用 户 并 让 用 户 再 次 重 试 ; 否则 ， 我 们 将 获取 信号 量 ， 并 像 
通常 那样 再 次 测试 空闲 空间 。 


独占 等 待 

我 们 已 经 看 到 , 当 某 个 进程 在 等 待 队列 上 调用 wake_zp 时 , 所 有 等 待 在 该 队列 上 的 进程 
都 将 被 置 为 可 运行 状态 。 在 许多 情况 下 ,这 是 正确 的 行为 ; 但 在 其 他 情况 下 ,我 们 可 以 
预先 知道 只 会 有 一 个 被 唤醒 的 进程 可 以 获得 期 望 的 资源 ,而 其 他 被 唤醒 的 进程 只 会 再 次 
休 眼 。 这 些 被 唤醒 进程 中 的 每 一 个 都 要 获得 处 理 器 ， 为 资源 (以 及 锁 ) 竞争 , 然后 又 再 
次 进入 休眠 。 如 果 等 待 队列 中 的 进程 数量 非常 庞大 , 这 种 “疯狂 兽 群 ”行为 将 严重 影响 
系统 性 能 。 


为 了 解决 现实 世界 中 的 “疯狂 兽 群 ”问题 , 内 核 开发 者 为 内 核 增加 了 “独占 等 待 ”选项 。 
一 个 独占 等 待 的 行为 和 通常 的 休眠 类 似 ， 但 有 如 下 两 个 重要 的 不 同 : 


。 ”等 待 队 列 入 口 设置 了 WQ_FLAG_EXCLUSIEV 标 志 时 , 则 会 被 添加 到 等 待 队 列 的 尾部 。 
而 没有 这 个 标志 的 入 口 会 被 添加 到 头 部 。 

。 ”在 某 个 等 待 队 列 上 调用 wake_xp 上 时 , 它 会 在 唤醒 第 一 个 具有 WQ_EFTAG_EXCLUSIEVE 
标志 的 进程 之 后 停止 唤醒 其 他 进程 。 


最 终结 果 是 ， 执 行 独占 等 待 的 进程 每 次 只 会 被 唤醒 其 中 一 个 (以 某 种 有 序 的 方式 )， 从 
而 不 会 产生 “疯狂 兽 群 ”问题 。 但 是 ， 内 核 每 次 仍然 会 唤醒 所 有 非 独占 等 待 进程 。 


如 果 满 足下 面 两 个 条 件 , 在 驱动 程序 中 利用 独占 等 待 是 值得 考虑 的 。 这 两 个 条 件 是 : 对 
某 个 资源 存在 严重 竞争 , 并 且 唤 醒 单 个 进程 就 能 完整 消耗 该 资源 。 比 如 , 对 Apache Web 
服务 器 来 说 ， 独 占 等 待 就 非常 适合 ; 当 新 的 连接 到 来 时 ， 只 应 有 一 个 Apache 进程 ( 通 
常 有 许多 Apache 进程 ) 被 唤醒 并 处 理 该 连接 。 但 是 ,我 们 并 没有 在 scullpipe 驱动 程序 
中 使 用 独占 等 待 ， 因 为 读 取 进程 很 少 会 竞争 数据 (或 者 写 入 进程 竞争 缓冲 区 空间 )， 另 
外 我 们 也 不 知道 某 个 读 取 进程 在 唤醒 后 ， 是 不 是 会 消耗 所 有 的 可 用 数据 。 

将 进程 置 于 可 中 断 等 待 状态 是 调用 prepare_to_wait_exclusive 的 一 种 简单 方式 : 

void prepare_to_wait_exclusive (wait_queue_head 上 *queue, 


wait_queue_t *wait, 
int state); 


这 个 函数 可 用 来 替换 prepare_to_wait 函数, 它 设置 等 待 队列 入 口 的 “独占 ”标志 ， 并 将 
进程 添加 到 等 待 队列 的 尾部 。 注 意 ， 使 用 wait_event 及 其 变种 无 法 执行 独占 等 待 。 
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唤醒 的 相关 细节 


相 比 内 核 中 真正 发 生 的 事情 , 我 们 介绍 过 的 唤醒 进程 的 内 容 要 简单 多 了 。 当 一 个 进程 被 
唤醒 时 ， 实 际 的 结果 由 等 待 队 列 和 口中 的 一 个 函数 控制 。 默认 的 唤醒 函数 ( 注 3) 将 进 
程 设 置 为 可 运行 状态 , 并 且 如 果 该 进程 具有 更 高 的 优先 级 , 则 会 执行 一 次 上 下 文 切换 以 
便 切换 到 该 进程 。 设备 驱动 程序 基本 没有 必要 提供 不 同 的 唤醒 函数 。 如 果 读 者 认为 有 此 
必要 ， 可 参阅 <linux/wait.h> 获得 关于 如 何 设置 的 信息 。 


我 们 也 没有 看 到 wake_up 的 所 有 变种 。 大 部 分 驱动 程序 开发 者 从 来 不 需要 这 些 变种 , 但 
出 于 完整 性 ， 这 里 给 出 所 有 的 wake_up 变种 : 


wake uplwait_queue head t *queue); 

wake_up_interruptible(wait_queue _ head t *queue); 
wake_up 会 唤醒 队列 上 所 有 非 独占 等 待 的 进程 , 以 及 单个 独占 等 待 者 (如果 存在 )。 
wake_up_interruptible 完成 相同 的 工作 ， 只 是 它 会 跳 过 不 可 中 断 休 眼 的 那些 进程 。 
这 两 个 函数 会 在 返回 前 让 唤醒 的 一 个 或 者 多 个 进程 被 调度 (尽管 这 种 情况 在 原子 上 
下 文中 调用 时 不 会 发 生 )。 

wake_ up_nr {wait_queue_head.t *queue, int nr); 

wake_up, interruptible nr (wait_queue head t *queue, int nr); 
上 述 函 数 的 功能 和 wake_up 类似, 只 是 它们 只 会 唤醒 nr 个 独占 等 待 进程 ,而 不 是 
只 有 一 个 。 注意, 传递 0 表明 请 求 唤醒 所 有 的 独占 等 待 进程 , 而 不 是 不 唤醒 任何 一 


人 个。 


wake_up_all {wait_queue_ head_t *queue); 

wake_up_interruptible_all (wait_queue_head t *queue); 
上 述 形 式 的 wake_up 不 管 进程 是 否 执行 独占 等 待 均 唤醒 它们 (尽管 中 断 形式 仍然 会 
跳 过 执行 非 中 断 等 待 的 进程 )。 

wake_up_interruptible_sync (wait_queue. head t *queue); 
通常 , 被 唤醒 的 进程 可 能 会 抢占 当前 的 进程 , 并 在 wake_xp 返 回 前 被 调度 到 处 理 器 
上 。 换 名 话说 , 对 wake_up 的 调用 可 能 不 是 原子 的 。 如果 调用 wake_up 的 进程 运行 
在 原子 上 下 文 (例如 拥有 自 旋 锁 , 或 者 是 一 个 中 断 处 理 例 程 ) 中 , 则 重新 调度 就 不 
会 发 生 。 通常 ， 这 一 保护 是 适当 的 。 但 是 ， 如 果 你 不 希望 在 这 时 被 调度 出 处 理 器 ， 
则 可 使 用 wake_up_interruptible 的 “sync (同步 )” 变 种 。 这 一 函数 经 常 在 调用 者 
打算 强制 重新 调度 的 情况 下 使 用 ， 并 且 在 只 有 很 少 的 工作 需要 首先 完成 时 更 加 有 
效 。 








注 3: 它 有 一 个 虚构 的 名 字 default _wake_function,。 
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如 果 读 者 感觉 上 面 描述 的 东西 不 是 非常 清晰 , 不 要 着 急 。 除了 wake_up_interruptible 之 
外 ,很 少 有 驱动 程序 需要 调用 其 他 wake_up 函数 。 


旧 的 历史 : sleep_on 
如 果 读 者 花 些 时 间 深 入 到 内 核 源 代码 ， 可 能 会 遇 到 我 们 尚未 讨论 过 的 两 个 函数 : 


void sleep_on (wait_dqueue_head t *queue); 
void interruptible sleep_on(wait. queue_head + *queue}; 


读者 可 以 能 会 想到 , 这 两 个 国 数 将 当前 进程 无 条 件 休眠 在 给 定 的 队列 上 。 但 是 ,我 们 极 
不 赞成 使 用 这 两 个 函数 一 一 永远 不 要 使 用 它们 。 如 果 考 虑 下 面 的 情形 ， 就 能 清楚 知道 
问题 所 在 : sleep_on 没 有 提供 对 竞 态 的 任何 保护 方法 。 在 代码 决定 休眠 及 sieep_on 真正 
产生 作用 之 间 ， 总 是 存在 一 个 窗口 ， 而 窗口 期 间 出 现 的 唤醒 将 会 被 丢失 。 为 此 ， 调 用 
sleep_on 的 代码 整体 上 是 不 安全 的 。 


在 不 远 的 将 来 , 对 sleep_on 及 其 变种 (还 有 两 个 超时 形式 未 列 出 ) 的 调用 将 从 内 核 中 删 
除 。 


测试 Scullpipe 驱动 程序 

我 们 已 经 看 到 sulipipe 驱动 程序 实现 阻塞 110 的 方式 。 如 果 读 者 打算 试 试 这 个 驱动 程序 ， 
则 其 源 代码 可 和 本 书 其 他 示例 程序 一 起 找到 。 实 际 的 阻塞 VO 可 通过 打开 两 个 窗口 看 到 。 
第 一 个 窗口 中 运行 类 似 car/dev/scullpipe 这样 的 命令 ， 然 后 在 另 一 窗口 中 复制 一 个 文件 
到 /dev/scullpipe， 之 后 将 看 到 该 文件 的 内 容 会 出 现在 第 一 个 窗口 中 。 


测试 非 阻塞 活动 要 麻烦 些 , 因为 一 般 的 程序 不 会 做 非 阻塞 型 操作 。misc-pro8s 源码 目录 
中 包含 一 个 简单 的 程序 nbrest， 用 来 测试 非 阻塞 型 操作 ， 其 代码 罗列 如 下 。 它 所 做 的 全 
部 事情 就 是 用 非 阻塞 型 IO 把 输入 复制 到 输出 ,并 在 期 间 稍 做 延迟 。 延 迟 时 间 由 命令 行 
传递 ， 默 认 是 1 种 。 


int main(int argc, char **argV) 
{ 
int delay = 1, n, m = 0; 


if taryge: > 1) 

delay=atoi (argv{[1]); 
fent1(0, F_SETFL, fcntl(0,F_ GETFL) | O.NONBLOCK); /* stdin */ 
fcntl(1, F_SETFL, fcntl(1,F_ GETFL) | 0_NONBLOCK); /* stdout */ 


while (1) { 
n = read(0, buffer, 4096); 
if (mn >= 0) 
m= write(l, buffer, n); 
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if ((n<0 || me< 0) && (errno != EAGAIN)) 
break; 
sleepldelay}); 
} 
perror(ln < 0 ? "stdin* : "stdout"); 
exit (1); 
} 


如 果 读 者 在 诸如 strace 这 类 进程 跟踪 工具 下 运行 上 面 的 程序 , 则 会 看 到 每 个 操作 的 成 功 
或 失败 ， 这 取决 于 操作 发 生 时 数据 是 否 可 获得 。 


poll 和 select 


使 用 非 阻塞 /0 的 应 用 程序 也 经 常 使 用 poll、select 和 epoll 系统 调用 。pol!，select 和 
epoll 的 功能 本 质 上 是 一 样 的 : 都 允许 进程 决定 是 否 可 以 对 一 个 或 多 个 打开 的 文件 做 非 阻 
案 的 读 取 或 写 人 。 这些 调 用 也 会 阻塞 进程 , 直到 给 定 的 文件 描述 符 集合 中 的 任何 一 个 可 
读 取 或 写 入 。 因此, 它们 常常 用 于 那些 要 使 用 多 个 输入 或 输出 流 而 又 不 会 阻塞 于 其 中 任 
何 一 个 流 的 应 用 程序 中 。 同一 功能 之 所 以 要 由 多 个 独立 的 函数 提供 , 是 因为 其 中 两 个 几 
乎 是 同时 由 两 个 不 同 的 Unix 团体 分 别 实现 的 : select 在 BSD Unix 中 引入 ,而 poll 由 
System V 引入 。epoof 系统 调用 ( 注 4) 在 2.5.45 中 引入 ， 它 用 于 将 pol! 函数 扩展 到 能 
够 处 理 数 千 个 文件 描述 符 。 


对 上 述 系统 调用 的 支持 需要 来 自 设备 驱动 程序 的 相应 支持 。 所 有 三 个 系统 调用 均 通过 驱 
动 程序 的 pol! 方 法 提供 。 该 方法 具有 如 下 的 原型 : 
unsigned int {*poll) (Struct file *filp, poll_ table *wait); 


当 用 户 空间 程序 在 驱动 程序 关联 的 文件 描述 符 上 执行 pol1、select 或 epoll 系统 调用 时 ， 
该 驱动 程序 方法 将 被 调用 。 该 设备 方法 分 为 两 步 处 理 : 


1， 在 一 个 或 多 个 可 指示 poll 状态 变化 的 等 待 队列 上 调用 poli_wait。 如 果 当 前 没有 文 
件 描 述 符 可 用 来 执行 IO , 则 内 核 将 使 进程 在 传递 到 该 系统 调用 的 所 有 文件 描述 符 
对 应 的 等 待 队列 上 等 待 。 


2. 返回 一 个 用 来 描述 操作 是 否 可 以 立即 无 阻塞 执行 的 位 掩 码 。 


这 些 操作 通常 简单 明了 , 各 个 驱动 程序 的 这 些 操作 看 起 来 也 非常 类 似 。 然而, 实际 上 它 
们 依赖 于 只 有 驱动 程序 才能 提供 的 信息 ,因此 必须 为 每 个 驱动 程序 分 别 实现 对 应 的 操作 。 





注 4: 实际 上 ， epoll 是 用 于 实现 轮 询 功能 的 三 个 调用 的 全 合 。 对 我 们 来 说 ， 可 以 简章 地 认为 
epol! 就 是 一 个 单独 的 调用 。 
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传递 给 pol! 方 法 的 第 二 个 参数 ，pol1_table 结构 ， 用 于 在 内 核 中 实现 poll、select 以 
及 epool 系统 调用 。 它 在 <linux/poll.h> 中 声明 ， 驱 动 程序 源 代码 必须 包含 这 个 头 文件 。 
蝶 动 程序 编写 者 不 需要 了 解 该 结构 的 细节 , 且 需 要 将 其 当成 一 个 不 透明 对 象 使 用 。 它 被 
传递 给 驱动 程序 方法 , 以 使 每 个 可 以 唤醒 进程 和 修改 po 操作 状态 的 等 待 队列 都 可 以 被 
驱动 程序 装载 , 通过 polL_wair 国 数 , 驱动 程序 向 po1l1_table 结 构 添 加 一 个 等 待 队列 : 


void poll_wait (struct file *, wait.queue head t *, poll_table *); 


poll 方 法 执行 的 第 二 项 任务 是 返回 描述 哪个 操作 可 以 立即 执行 的 位 掩 码 ， 这 也 很 直接 ， 
例如 ,如果 设备 已 有 数据 就 绪 , 一 个 read 操 作 可 以 立刻 完成 而 不 用 休眠 , 那么 poll 方 法 
应 该 指出 这 种 情况 。 几 个 标志 (在 <linux/poll.h> 定义 ) 用 来 指明 可 能 的 操作 : 


POLLIN 
如 果 设 备 可 以 无 阻塞 地 读 取 ， 就 设置 该 位 。 
POLLRDNORM 
如 果 “ 通 常 ” 的 数据 已 经 就 绪 , 可 以 读 取 , 就 设置 该 位 。 一 个 可 读 设备 返回 ( POLLIN 
| POLLRDNORM ) 。 
POLLRDBAND 
这 一 位 指示 可 以 从 设备 读 取 out-of-band( 频带 之 外 ) 的 数据 。 它 当前 只 可 以 在 Linux 
内 核 的 DECnet 代码 中 使 用 ， 通 常 不 用 于 设备 驱动 程序 。 
POLLPRI 
可 以 无 阻塞 地 读 取 高 优先 级 ( 即 out-of-band ) 的 数据 。 设 置 该 位 会 导致 select 报告 
文件 发 生 一 个 异常 ， 这 是 由 于 select 把 “out-of-band” 的 数据 作为 异常 对 待 。 
POLLHUP 
当 读 取 设 备 的 进程 到 达 文 件 尾 时 ， 驱 动 程序 必须 设置 POLLHUP ( 挂 起 ) 位 。 依照 
select 的 功能 描述 ， 调 用 select 的 进程 会 被 告知 设备 是 可 读 的 。 
POLLERR 
设备 发 生 了 错误 。 如果 调 用 poli, 就 会 报告 设备 既 可 读 也 可 以 写 , 因为 读 写 都 会 无 
阻塞 地 返回 一 个 错误 码 。 
POLLOUT 
如 果 设 备 可 以 无 阻塞 地 写 和 人 ， 就 在 返回 值 中 设置 该 位 。 
POLLWRNORM 
该 位 和 POLLOUT 的 意义 一 样 ， 有 时 其 实 就 是 同一 个 数字 。 一 个 可 和 写 的 设备 将 返回 
(POLLOUT | POLLWRNORM ) 。 


高 级 字符 驱动 程序 操作 165 





POLLWRBAND 
与 POLLRDBAND 类 似 , 这 一 位 表示 具有 非 零 优先 级 的 数据 可 以 被 写 入 设备 。 只 有 
数据 报 (datagram ) 的 pol1 实 现 中 使 用 了 这 一 位 , 因为 数据 报 可 以 传输 out-of-band 
数据 。 


POLLRDBAND 和 POLLWRBAND 只 在 与 套 接 字 相关 的 文件 描述 符 中 才 是 有 意义 的 。 设 备 驱 
动 程序 通常 用 不 到 这 两 个 标志 。 


描述 pol! 很 费事 ， 实 际 的 使 用 则 相对 简单 多 了 。 考 虑 一 下 sculipipe 的 poll 实现 : 


static unsigned int scull.p polll(struct file *filp, poll_ table *wait) 
{ 

struct scull_pipe *dev = filp~>private data; 

unsigned int mask = 0; 


A/* 
* The buffer is circular; it is considered full 
* if "wp" is right behind "rp" and empty it the 
* two are equal. 
克 江 
/* 
* 缓冲 区 是 环形 的 ; 也 就 是 说 ， 如 果 wp 在 rp 之 后 ， 则 表明 缓冲 区 
* 已 满 ， 而 如 果 它 们 两 个 相等 ， 则 表明 是 空 的 。 
这 着 
down (&dev->sem}; 
poll wait (filp, &dev->ing, wait); 
poll wait(filp, &dev->outq, wait); 
if (dev->rp != dev->wp) 
mask |= POLLIN | POLLRDNORM; /* 可 读 取 */ 
if (spacefree(dev)) 
mask |= POLLOUT | POLLWRNORM;  /* 可 写 人 人 */ 
up(l&dev->sem); 
return mask; 
} 


这 段 代 码 简 单 地 增加 两 个 sculipipe 等待 队列 到 pol1I_table 中 , 然后 根据 数据 的 可 读 
或 可 写 状 态 设 置 相 应 的 位 掩 码 。 


上 述 pol 代码 中 缺少 对 文件 尾 的 支持 , 这 是 因为 sculipipe 不 支持 文件 尾 条 件 。 对 大 多 数 
真实 的 设备 , 在 目前 (或 将 来 ) 没有 数据 可 获得 时 ， pol 方法 应 该 返回 POLLHUP。 如 果 
调用 者 使 用 select 系统 调用 ， 则 会 报告 文件 是 可 读 的 。 在 两 种 情况 下 应 用 程序 都 能 知道 
它 一 定 可 以 执行 无 阻塞 的 read,， 而 read 方法 将 会 返回 0 来 指示 已 到 了 文件 尾 。 


在 真正 的 FIFO 实 现 中 , 读 取 进 程 在 所 有 的 写 入 进程 都 关闭 了 文件 后 就 能 看 到 文件 尾 。 然 
而 在 scullpipe 中 读 取 进 程 却 永远 看 不 到 文件 的 结尾 。 之 所 以 有 这 种 不 同 ， 是 因为 FIFO 
一 般 被 作为 两 个 进程 的 通信 通道 使 用 , 而 sculipipe 就 是 一 个 垃圾 桶 一 一 只 要 还 有 一 个 
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读 取 进程 存在 , 任何 进程 都 可 以 往 里 面 扔 数据 。 此 外 ,重新 实现 内 核 中 已 有 的 东西 也 设 
什么 意义 ， 因此， 我 们 在 例子 中 采用 了 不 同 的 实现 行为 。 


像 FIFO 那样 实现 文件 尾 意 味 着 要 在 read 和 pol! 中 检查 dev->nwrites， 如 果 没有 进程 
为 写 人 而 打开 设备 , 就 报告 文件 结束 。 不 过 遗憾 的 是 ， 如 果 读 取 进 程 在 写 入 进程 之 前 打 
开 了 scullpipe 设 备 , 马上 就 会 看 到 文件 尾 , 从 而 没有 机 会 等 待 数据 的 到 达 。 修正 这 个 问 
题 的 最 好 方法 是 像 真 正 的 FIFO 那 样 实现 阻塞 的 open 操 作 。 这 个 任务 作为 练习 留 给 读者 。 


与 read 和 write 的 交互 


po 和 select 调 用 的 目的 是 确定 接 下 来 的 MO 操作 是 否 会 阻塞 。 从 这 个 方面 来 说 , 它们 是 
read 和 write 的 补充 。pol! 和 select 的 更 重要 的 用 途 是 它们 可 以 使 应 用 程序 同时 等 待 多 个 
数据 流 ， 尽 管 在 sculi 的 例子 里 没有 利用 这 个 特点 。 


为 了 使 应 用 程序 正常 工作 , 正确 实现 这 三 个 调用 是 非常 重要 的 。 所 以 尽管 下 面 的 规则 多 
多 少 少 已 经 在 前 面 提 过 了 ， 但 我 们 还 是 要 在 这 里 总 结 一 下 。 


从 设备 读 取 数据 

。 ”如 果 输 入 缓冲 区 有 数据 , 那么 即使 就 绪 的 数据 比 程序 所 请 求 的 少 ,并且 驱动 程序 保 
证 剩 下 的 数据 马上 就 能 到 达 , read 调 用 仍然 应 该 以 难以 察觉 的 延迟 立即 返回 。 如果 
为 了 菜 种 方便 (比如 我 们 的 scul1) ,read 甚 至 可 以 一 直 返 回 比 所 请 求 数目 少 的 数据 ， 
当然 ， 前 提 是 至 少 得 返回 一 个 字 节 。 

。 ”如 果 输 入 缓冲 区 中 没有 数据 ， 那 么 默认 情况 下 read 必须 阻塞 等 待 ， 直 到 至 少 有 一 
个 字 节 到 达 。 另 一 方面 ， 如 果 设置 了 0_NONBLOCK 标 志 ，read 应 立即 返回 ,返回 
值 是 -EAGAIN (有 些 System V 的 老 版 本 返回 0)。 在 这 种 情况 下 poli 必须 报告 设 
备 不 可 读 , 直到 至 少 有 一 个 字 节 到 达 。 一 旦 缓冲 区 中 有 了 数据 , 我 们 就 回 到 了 前 一 
种 情况 。 


. 如 果 已 经 到 达 文 件 尾 ，read 应 该 立即 返回 0， 无 论 0_NONBLOCK 是 否 设 置 。 此 时 
poll 应 该 报告 POLLHUP。 


向 设备 写 数据 
。 ”如 果 输出 缓冲 区 中 有 空间 ， 则 write 应 该 无 延迟 地 立即 返回 。 它 可 以 接收 比 请 求 少 
的 数据 ， 但 至 少 要 接收 一 个 字 节 。 在 这 种 情况 下 ，Po 报告 设备 可 写 。 


。 ”如 果 输 出 缓冲 区 已 满 ， 那么 默认 情况 下 write 被 阻塞 直到 有 空间 有 释放。 如 果 设 置 了 
0_NONBLOCK 标志 ，wrife 应 立即 返回 ， 返 回 值 是 -EAGAIN ( 老 版 本 的 System V 
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系统 返回 0)。 这 时 poll 应 该 报告 文件 不 可 写 。 另 一 方面 ， 如 果 设 备 不 能 再 接受 任 
何 数据 ， 则 write 返回 -ENOSPC (“No space left on device ， 设 备 无 可 用 空间 ”)， 
而 不 管 0_NONBLOCK 标志 是 否 设置 。 


。 ”永远 不 要 让 write 调 用 在 返回 前 等 待 数据 的 传输 结束 , 即使 0_NONBLOCK 标 志 被 清 
除 。 这 是 因为 ,许多 应 用 程序 用 select 来 检查 write 是 否 会 阻塞 。 如 果 报 告 设 备 可 
以 写 人 ,调用 就 不 能 被 阻塞 。 如 果 使 用 设备 的 程序 需要 保证 输出 缓冲 区 中 的 数据 确 
实 已 经 被 传送 出 去 ， 驱动 程序 就 必须 提供 一 个 fsync 方法。 例如， 可 移 除 设备 就 应 
该 有 一 个 fsync 的 人 口 点 。 


尽管 这 些 已 经 是 一 个 很 好 的 通用 规则 集合 ， 但 还 是 应 该 承认 每 个 设备 都 有 其 独特 之 处 ， 
所 以 有 时 候 需 要 稍稍 改变 一 下 规则 。 例 如 ， 面 向 记录 的 设备 〈 如 磁带 机 ) 不 能 执行 部 
分 写 人 【必须 以 记录 为 单位 )。 


刷新 待 处 理 输出 


我 们 已 经 看 到 了 为 什么 write 方法 不 能 满足 所 有 数据 输出 的 需求 , fsync 函数 可 以 弥补 这 
一 空 险 ， 它 通过 同名 系统 调用 来 调用 。 该 方法 的 原型 是 : 


int (*fsync) {struct file *file, struct dentry *dentry, int datasync); 


如 果 应 用 程序 需要 确保 数据 已 经 被 传送 到 设备 上 , 就 必须 实现 fsync 方 法 。 一 个 fsync 调 
用 只 有 在 设备 已 被 完全 刷新 (输出 缓冲 区 全 空 ) 时 才 会 返回 ,即使 这 要 花 一 些 时 间 。 是 
否 设 置 了 0_NONBLOCK 标 志 对 此 没有 影响 。 参数 datasync 用 于 区 分 fsync 和 fdatasync 
这 两 个 系统 调用 。 这 里 它 只 和 文件 系统 的 代码 有 关 ， 驱 动 程序 可 以 忽略 它 。 


fsync 方 法 没有 什么 特别 的 地 方 。 这 个 调用 对 时 间 没 有 严格 要 求 , 所 以 每 个 驱动 程序 都 可 
以 按照 作者 的 喜好 实现 它 。 大 多 数 时 候 ， 字 符 设备 驱动 程序 在 它们 的 fops 只 有 一 个 
NULL 指针 ，, 而 块 设备 总 是 用 通用 的 block_fsync 来 实现 这 个 方法 ,block_fsync 会 依次 刷 
新 设备 的 所 有 缓冲 块 ， 并 等 待 所 有 LO 结束 。 


底层 的 数据 结构 


。 poll 和 select 系统 调用 的 实现 是 相当 简单 的 ; epo 略微 复杂 些 ， 但 仍 基于 相同 的 原理 。 


当 用 户 应 用 程序 调用 了 poll、select 或 epof_et ( 注 5) 函数 时 ， 内 核 会 调用 由 该 系统 调 
用 引用 的 爹 部 文件 的 pol! 方 法 ， 并 向 它们 传递 同一 个 poll_table。pol1_table 结构 
是 构成 实际 数据 结构 的 一 个 简单 封装 。 对 pol! 和 select 系统 调用 ， 后面 这 个 结构 是 包含 





注 5: 这 是 为 调用 epoll_wait 而 用 于 构造 内 部 数据 结构 的 澶 数 。 
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poll_table_entry 结 构 的 内 存 页 链表 .每 个 poll_table_entry 结 构 包 括 一 个 指向 被 
打开 设备 的 struct file 类 型 的 指针 、 一 个 wait_queue_head_t 指针 以 及 一 个 关联 
的 等 待 队 列 人 口 。 对 poll_wait 的 调用 有 时 也 会 将 进程 添加 到 这 个 给 定 的 等 待 队 列 。 整个 
结构 必须 由 内 核 维护 ， 因 而 在 pol! 或 select 返 加 前， 进程 可 从 所 有 这 些 队 列 中 移 除 。 


如 果 轮 询 (poll) 时 没有 一 个 驱动 程序 指明 可 以 进行 非 阻塞 11O, 这 个 poli 调 用 就 进入 休 
眠 ， 直 到 休眠 在 其 上 的 某 个 〈 或 多 个 ) 等 待 队列 唤醒 它 为 止 。 


poll 实现 中 的 一 个 有 趣 之 处 是 , 驱动 程序 的 pol! 方 法 在 被 调用 时 为 po11_table 参 数 传 
递 NULL 指针 。 这 种 情形 的 出 现 基 于 两 个 原因 。 如 果 应 用 程序 调用 pol! 时 提供 的 超时 
(timeout) 值 为 0( 表 明 不 应 等 待 ) ， 则 没有 任何 原因 需要 处 理 等 待 队列 ， 而 系统 也 不 必 
为 此 做 任何 工作 。 在 任何 被 轮 询 的 驱动 程序 指明 可 进行 IO 之 后 ，pol1l_table 指针 也 
会 立即 被 设置 为 NULL。 因 为 内 核 知道 此 时 不 会 发 生 任何 等 待 ， 因 此 也 不 需要 构造 等 待 
队列 。 


在 poll 调 用 结束 时 ，poll_table 结 构 被 重新 分 配 ， 所 有 的 先前 添加 到 poll 表 中 的 等 待 
队列 和 人口 都 会 从 这 个 表 以 及 等 待 队 列 中 移 除 。 


在 图 6-1 中 显示 了 与 轮 询 相关 的 数据 结构 ; 该 图 是 实际 数据 结构 的 简化 表示 ， 其 中 忽略 
了 轮 询 表 的 多 页 特性 , 也 省 略 了 每 个 poll_table_entry 中 的 文件 指针 。 推 荐 对 真正 的 
实现 感 兴趣 的 读者 阅读 <linux/poll.h> 和 fsiselect.c 的 相关 代码 。 


此 时 ， 读 者 应 该 能 够 理解 出 现 新 的 epoll 系统 调用 的 原因 了 。 在 典型 情况 下 ， 对 pol! 或 
者 select 的 调用 只 涉及 到 几 个 文件 描述 符 , 因此 构造 相关 数据 结构 的 成 本 相对 较 小 。 但 
是 有 一 些 应 用 程序 却 会 同时 处 理 几 千 个 文件 描述 符 。 对 这 种 情况 ,在 每 个 1O 操作 之 间 
构造 及 销毁 该 数据 结构 将 变 得 极其 浪费 。 而 epoll 系统 调用 族 可 帮助 这 类 应 用 程序 只 需 
构造 一 次 内 部 内 核 数据 结构 ， 然 后 多 次 使 用 。 


异步 通知 
尽管 大 多 数 时 候 阻 寒 型 和 非 阻塞 型 操作 的 组 合 以 及 selecr 方 法 可 以 有 效 地 查询 设备 , 但 
某 些 时 候 用 这 种 技术 处 理 就 效率 不 高 了 。 


例如 , 我 们 可 以 想像 这 种 情况 ; 一 个 进程 在 低 优先 级 执行 长 的 循环 计算 , 但 又 需要 尽 可 
能 快 地 处 理 输入 数据 。 如 果 该 进程 正在 响应 来 自 数据 收集 外 设 的 新 的 观测 数据 , 则 应 该 
在 新 数据 可 用 时 立即 知晓 并 处 理 。 我 们 可 以 让 这 个 应 用 程序 周期 性 地 调用 pol 来 检查 数 
据 , 但 是 对 许多 情况 来 讲 还 有 更 好 的 办 法 。 通 过 使 用 异步 通知 , 应 用 程序 可 以 在 数据 可 
用 时 收 到 一 个 信号， 而 不 需要 不 停 地 使 用 轮 询 来 关注 数据 。 
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struct poll table_struct 结 构 


int error; 


只 针对 单个 设备 调用 poll 的 进程 


struct poll table page *tables; 


struct poll_table_entry 结 构 


wait. queue head t “wait. address; 


一 般 设 备 结构 及 其 在 两 个 设备 上 调用 poll (或 者 select) 的 进程 


wait_queue head t 


具有 活动 poll 0 调用 的 进程 


poll table_struct 


轮 询 表 入 口 项 





6-1: poll 背后 的 数据 结构 


为 了 启用 文件 的 异步 通知 机 制 , 用 户 程序 必须 执行 两 个 步骤 。 首先 ,它们 指定 一 个 进程 
作为 文件 的 “ 属 主 (owner)”。 当 进程 使 用 fcntl! 系统 调用 执行 F_SETOWN 命令 时 ， 属 主 
进程 的 进程 ID 号 就 被 保存 在 filp->f_owner 中 。 这 一 步 是 必需 的 ,目的 是 为 了 让 内 
核 知道 应 该 通知 哪个 进程 。 然 后 , 为 了 真正 启用 异步 通知 机 制 , 用 户 程 序 还 必须 在 设备 
中 设置 FASYNC 标志 ， 这 通过 fcnt! 的 F_SETFL 命令 完成 的 。 


执行 完 这 两 个 步骤 之 后 ,输入 文件 就 可 以 在 新 数据 到 达 时 请 求 发 送 一 个 SIGIO 信 号 ,该 
信号 被 发 送 到 存放 在 filp->f_owner 中 的 进程 (如 果 是 负 值 就 是 进程 组 )。 
例如 ， 用 户 程序 中 的 如 下 代码 段 启 用 了 stdin 输 入 文件 到 当前 进程 的 异步 通知 机 制 : 
signal (SIGIO，&input_handler) ; /* 虚构 示例 ， 最 好 使 用 sigaction() */ 
fcntl (STDIN_FILENO, F_SETOWN, getpid()); 


oflags = fcntl (STDIN_FILENO, F_GETFL); 
fcntl (STDIN_FILENO, F_SETFL, oflags | FASYNC); 


示例 源 代 码 中 名 为 asynctest 的 程序 就 是 这 样 一 个 读 取 stdin 的 例子 。 它 可 以 用 来 测试 
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scullpipe 的 异步 功能 。 该 程序 类 似 于 cat， 但 不 会 在 文件 尾 终止 。 它 只 响应 输入 ， 没 有 
输入 时 就 没有 响应 。 


需要 注意 的 是 ,不 是 所 有 的 设备 都 支持 异步 通知 ,我 们 也 可 以 选择 不 提供 异步 通知 功能 。 
应 用 程序 通常 假设 只 有 套 接 字 和 终端 才 有 异步 通知 能 力 。 


还 有 一 个 问题 。 当 进程 收 到 SIGIO 信 号 时 , 它 并 不 知道 是 哪个 输入 文件 有 了 新 的 输入 。 
如 果 有 多 于 一 个 文件 可 以 异步 通知 输入 的 进程 ， 则 应 用 程序 仍然 必须 借助 于 poll 或 
select 来 确定 输入 的 来 源 。 


从 驱动 程序 的 角度 考虑 


对 我 们 来 讲 , 一 个 更 重要 的 话题 是 驱动 程序 怎样 实现 异步 信号 。 下 面 列 出 的 是 从 内 核 角 
度 来 看 的 详细 操作 过 程 。 


1， F_SETOWN 被 调用 时 对 filp->f_owner 赋值 ， 此 外 什么 也 不 做 。 


2. 在 执行 F_SETFL 启用 FASYNC 时 ， 调 用 驱动 程序 的 Jasynmc 方法 。 只 要 filp-> 
f_flags 中 的 FASYNC 标 志 发 生 了 变化 , 就 会 调用 该 方法 , 以 便 把 这 个 变化 通知 驱 
动 程序 , 使 其 能 正确 响应 。 文件 打开 时 ，FASYNC 标志 被 默认 为 是 清除 的 。 我 们 一 
会 再 来 看 看 这 个 驱动 程序 方法 的 标准 实现 。 


3.” 当 数据 到 达 时 ， 所 有 注册 为 异步 通知 的 进程 都 会 被 发 送 一 个 SIGIO 信和 号。 


第 一 步 的 实现 很 简单 ,在 驱动 程序 部 分 没什么 可 做 的 。 其 他 步骤 则 要 涉及 维护 一 个 动态 
数据 结构 ,以 跟踪 不 同 的 异步 读 取 进程 ,这 种 进程 可 能 会 有 好 几 个 。 不 过 ,这 个 动态 数 
据 结构 并 不 依赖 于 特定 的 设备 , 内 核 已 经 提供 了 一 套 合适 的 通用 实现 方法 , 无 需 为 每 个 
驱动 程序 重 写 同一 代码 。 


Linux 的 这 种 通用 方法 基于 一 个 数据 结构 和 两 个 函数 (它们 要 在 前 面 提 到 的 第 二 步 和 第 
三 步 中 调用 )。 含有 相关 声明 的 头 文件 是 <linux/fs.h> (这 对 我 们 来 说 并 不 新 鲜 ), 那个 数 
据 结 构 称 为 struct fasync_struct。 和 处 理 等 待 队列 的 方式 类 似 ， 我 们 需要 把 一 个 
该 类 型 的 指针 插入 设备 特定 的 数据 结构 中 去 。 


驱动 程序 要 调用 的 两 个 函数 的 原型 如 下 : 


int fasync_helper(int fd, struct file *filp, 
int mode, struct fasync_struct **fa); 
void kill_fasync (struct fasync_struct **fa, int sig, int band}: 
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当 一 个 打开 的 文件 的 FASYNC 标志 被 修改 时 , 调用 fasync_helper 以 便 从 相关 的 进程 
列表 中 增加 或 删除 文件 。 除了 最 后 一 个 参数 外 , 它 的 其 他 所 有 参数 都 是 提供 给 fasync 方 
法 的 相同 参数 , 因此 可 以 直接 传递 . 在 数据 到 达 时 , 可 使 用 kil1_fasync 通 知 所 有 的 相 
关 进 程 。 它 的 参数 包括 要 发 送 的 信号 (通常 是 SIGIO) 和 带宽 (band )， 后 者 几乎 总 是 
POLL_IN { 注 6) (但 在 网 络 代码 中 ， 可 用 来 发 送 “ 紧 急 ” 或 out-of-band 的 数据 )。 


住 scullpipe 中 是 这 样 实现 fasync 方法 的 : 


static int scull p_fasync(int fd, struct file *filp, int mode) 
. 
struct scull_pipe *dev = filp->private_data; 


return fasync_helper (fd, filp, mode, &dev->async_queue); 
} 
很 显然 , 所 有 工作 都 由 fasync_helper 完成 。 不过, 如果 没有 驱动 程序 中 提供 的 方法 , 它 
是 不 可 能 实现 这 一 功能 的 。 因 为 辅助 函数 需要 访问 正确 的 struct fasync_struct * 
类 型 (这 里 是 &dev->async._queue) 的 指针 ， 而 只 有 驱动 程序 才能 提供 这 一 信息 。 


接着 , 当 数 据 到 达 时 , 必须 执行 下 面 的 语句 来 通知 异步 读 取 进 程 。 由 于 供给 sculipipe 的 
读 取 进 程 的 新 数据 是 由 某 个 进程 调用 write 产生 的 , 所 以 这 条 语句 是 在 sculipipe 的 write 
方法 中 : 
if (dev->async_Gueue) 
kill_fasync (&dev->async_queue, SIGIO, POLL_IN); 
注意 ,， 某 些 设备 也 针对 设备 可 写 人 而 实现 了 异步 通知 。 在 这 种 情况 下 ,Kill_fasync 必须 
以 POLL_OUT 为 模式 调用 。 


看 起 来 差不多 都 讨论 完了 , 不 过 还 漏 了 一 件 事 。 当 文件 关闭 时 必须 调用 fasync 方法， 以 
便 从 活动 的 异步 读 取 进程 列表 中 删除 该 文件 .尽管 这 个 调用 只 在 tilp->f_f1lags 设 置 
了 FRASYNC 标 志 时 才 是 必需 的 ,但 不 管 什么 情况 , 调用 它 不 会 有 什么 坏处 , 并 且 这 也 是 
普遍 的 实现 方法 。 例 如 ， 下 面 的 代码 是 sculipipe 的 close 方法 中 的 一 段 : 

/* 从 异步 通知 列表 中 删除 该 filp */ 

scull p_fasync{(-1, filp, 0); 
异步 通知 所 使 用 的 数据 结构 和 struct wait_queue 使 用 的 几乎 是 相同 的 , 因为 两 种 情 
况 都 涉及 等 待 事件 。 不 同 之 处 在 于 前 者 用 struct file 替 换 了 struct task_struct。 
队列 中 的 file 结构 用 来 获取 f_owner， 以 便 给 进程 发 送信 号 。 





广 6: POLL_ZN 是 异步 通知 代码 使 用 的 一 个 符号 ， 它 等 价 于 POLLIN|POLLRDNORM。 
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定位 设备 


本 章 最 后 要 讨论 的 是 liseek 方 法 、 对 某 些 设备 来 讲 ， 该 方法 很 有 用 而 且 易 于 实现 。 


llseek 实现 


llseek 方 法 实现 了 lseek 和 Llseek 系统 调用 。 前 面 已 经 提 到 过 ,如 果 设 备 操作 未 定义 liseek 
方法 ,内 核 默 认 通 过 修改 filp->f_pos 而 执行 定位 , filp->f_pos 是 文件 的 当前 读 
取 / 写 入 位 置 。 请 注意 ,为 了 使 iseek 系统 调用 能 正确 工作 ，read 和 write 方法 必须 通过 
更 新 它们 收 到 的 偏 移 量 参数 来 配合 。 


如 果 定 位 操作 对 应 于 设备 的 一 个 物理 操作 ,可 能 就 需要 提供 自己 的 lseek 方 法 。 在 scull 
的 虹 动 程序 中 可 以 看 到 一 个 简单 的 例子 : 


loff_t scull_llseek(struct file *filp，1oft_t off, int whence) 
{ 

struct scull_ dev *dev = filp->private_ data; 

loff_t newpos: 


switch(whence) { 
case 0: /* SEEK_SET */ 
newpos = off; 
break; 


case 1; /* SEEK_CUR */ 
newpos = filp->f_pos + off; 
break; 


Case 2: /* SEEK_END */ 
newpos = dev->size + off; 
break; 


default; /* 不 应 该 发 生 */ 
return -EINVAL; 
} 
if (newpos < 0) return -EINVAL; 
filp->f_pos = newpos; 
return newpos; 
} 
这 里 唯一 与 设备 相关 的 操作 就 是 从 设备 中 获得 文件 长 度 。 在 scul! 中 ,read 和 wrire 方 法 


需要 相互 配合 ， 就 像 第 三 章 中 介绍 的 那样 。 


上 面 的 实现 对 scul1 是 有 意义 的 , 因为 它 处 理 一 个 明确 定义 的 数据 区 。 然而 大 多 数 设备 只 
提供 了 数据 流 (就 像 串 口 和 键盘 )， 而 不 是 数据 区 ， 定 位 这 些 设备 是 没有 意义 的 。 在 这 
种 情况 下 ,不 能 简单 地 不 声明 liseek 操作， 因为 默认 方法 是 允许 定位 的 。 相反， 我 们 应 
该 在 我 们 的 open 方法 中 调用 nonseekable_open， 以 便 通 知 内 核 设 备 不 支持 liseek: 
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int nonseekable_open(struct inode *inode; struct file *filp); 


上 述 调 用 将 会 把 给 定 的 fip 标 记 为 不 可 定位 ; 这 样 ,内 核 就 不 会 让 这 种 文件 上 的 1seek 调 
用 成 功 。 通过 这 种 方式 标记 文件 , 我 们 还 可 以 确保 通过 pread 和 pwrire 系统 调用 也 不 能 
定位 文件 。 


为 了 完整 起 见 ， 我 们 还 应 该 将 Efile_operations 结构 中 的 ilseek 方 法 设置 为 特殊 的 辅 
助 函 数 no_liseek， 该 函数 定义 在 <linux/fs.h> 中 。 


设备 文件 的 访问 控制 
提供 访问 控制 对 于 设备 节点 的 可 靠 性 有 时 是 至 关 重 要 的 。 比如, 不 仅 不 允许 未 授权 的 用 


户 使 用 设备 (这 可 以 通过 设置 文件 系统 的 许可 位 实现 )， 而 且 在 某 些 情况 下 一 次 只 能 允 
许 一 个 授权 用 户 打 开设 备 。 


使 用 终端 的 问题 与 此 类 似 。 每 当 一 个 用 户 登录 系统 ,login 进程 就 修改 设备 节点 的 属 主 ， 
以 防止 其 他 用 户 干扰 或 侦 昕 这 个 终端 的 数据 流 .然而 如 果 仅仅 为 了 保证 对 设备 的 唯一 访 
问 ， 而 在 每 次 打开 它 时 都 用 特权 程序 修改 设备 的 属 主 ， 是 不 现实 的 。 


到 现在 为 止 , 我 们 还 没有 看 到 能 超越 文件 系统 权限 位 而 实现 任意 访问 控制 的 代码 。 如 果 
open 系 统 调用 将 请 求 转 给 驱动 程序 , open 就 成 功 了 。 现在 来 介绍 一 些 实现 某 些 附加 检查 
的 技术 。 


本 节 的 每 个 设备 都 和 “ 裸 的 ”scull 设 备 ( 它 实 现 了 一 个 持久 的 内 存 区 ) 具有 相同 的 功能 ， 
但 具有 不 同 的 访问 控制 ， 这 是 在 open 和 release 操作 中 实现 的 。 


独 享 设备 

最 生硬 的 访问 控制 方法 是 一 次 只 允许 一 个 进程 打开 设备 独 享 )。 最 好 避免 使 用 这 种 技 
术 , 因为 它 制约 了 用 户 的 灵活 性 。 用 户 可 能 会 希望 在 同一 设备 上 运行 不 同 的 进程 ,一 个 
用 来 读 取 状 态 信息 , 而 另 一 个 进程 写 人 数据 。 有 时 候 , 用 户 通 过 一 个 shell 脚 本 同时 运行 
多 个 可 以 同时 访问 设备 的 简单 程序 就 能 够 完成 很 多 工作 。 换 句 话说 , 独 享 这 种 方式 其 实 
建立 了 一 种 策略 ， 而 这 种 策略 妨碍 了 用 户 完成 他 的 工作 。 


一 次 只 允许 一 个 进程 打开 设备 有 很 多 令 人 不 快 的 特性 ,不 过 这 也 是 设备 驱动 程序 中 最 容 
易 实 现 的 访问 控制 方法 。 下 面 给 出 了 代码 ， 这 些 代码 摘自 scullsingle 设备 。 


scullsingle 设备 维护 一 个 atomic_t 变量 , 称 为 scull_s_available。 该 变量 的 值 初 
始 化 为 1， 表明 该 设备 真正 可 用 。open 调用 会 减 小 并 测试 scul1_s_availabe, 并 在 其 
他 进程 已 经 打开 该 设备 时 拒绝 访问 : 
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static atomic_t scull_s_available = ATOMIC_INIT(1); 


static int scull_s_open{struct inode *inode, struct file *filp) 
人 
struct scull dev *dev = &scull_s_device; /* 设备 信息 */ 


if (! atomic dec and test (&scull_s_available}) { 
atomic inc(&scull._s_available); 
return -EBUSY; /* 已 打开 */ 

J 


/* 然后 ， 从 裸 的 scull 设备 中 复制 所 有 其 他 数据 */ 
if ( {filp->f_flags & O_ACCMODE) = = O_ WRONLY) 
sculil_trim{(dev); 
filp->private_data = dev; 
return 0; /1* 成 功 */ 
} 


另 一 方面 ，reliease 调用 则 标记 设备 为 不 再 忙 。 


static int scull_s_release(struct inode *inode, struct file *filp) 
{ 

atomic_inc ({&scull_s_available) ; /* 释放 该 设备 */ 

return 0; 


3 
通常 ,建议 把 打开 标志 scull_s_available 放 在 设备 结构 (这 里 是 Scull_Dev) 中 ， 


因为 从 概念 上 来 讲 它 本 身 属于 设备 。 不 过 , scul! 驱 动 程序 使 用 了 单独 的 变量 保存 这 个 标 
志 , 这 是 为 了 保持 与 裸 scul! 设 备 使 用 同样 的 设备 结构 和 方法 ， 从 而 最 小 化 代码 的 重复 。 


限制 每 次 只 由 一 个 用 户 访 问 

在 构造 独 亭 设备 之 后 , 我 们 要 建立 允许 单个 用 户 在 多 个 进程 中 打开 的 设备 , 但 是 每 次 只 
允许 一 个 用 户 打开 该 设备 。 这 种 方案 便于 测试 该 设备 , 因为 用 户 每 次 可 从 多 个 进程 读 取 
和 写 人 , 前 提 是 由 用 户 负责 在 多 进程 访问 中 维护 数据 的 完整 性 。 这 通过 在 open 方 法 中 加 
人 检查 来 完成 , 这 种 检查 在 正常 的 权限 检查 之 后 进行 , 提供 了 比 文件 属 主 和 属 组 权限 位 
更 严格 的 访问 控制 。 这 种 策略 和 终端 使 用 的 访问 策略 相同 , 不 过 它 无 需 借助 于 一 个 外 部 
的 特权 程序 。 


与 独 享 策略 相 比 ,实现 这 些 访问 策略 需要 更 多 的 技巧 。 此 时 需要 两 个 数据 项 : 一 个 打开 
计数 和 设备 属 主 的 UID。 同 样 的 , 这些 数 据 项 最 好 是 保存 在 设备 结构 内 部 ; 不 过 , 我 们 
的 例子 使 用 的 是 全 局 变量 ， 其 原因 在 前 面 介绍 scullsingle 时 已 解释 过 了 。 设 备 名 是 


sculluid, 


open 调 用 在 第 一 次 打开 时 授权 , 但 它 记 录 下 设备 的 属 主 。 这 意味 着 一 个 用 户 可 以 多 次 打 
开设 备 ， 允 许 几 个 互相 协作 的 进程 并 发 地 在 设备 上 操作 。 同时 ,其 他 用 户 不 能 打开 这 个 
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设备 , 这 就 避免 了 外 部 干扰 . 因为 这 个 国 数 版 本 和 上 一 个 基本 相同 . 所 以 只 列 出 相关 部 
分 : 
Spin_lock(&kscul1_u_lock): 
if {scull u_count gz 
(scull_u_owner != current->uid) && /* 人 允许 用 户 */ 
(scull_u_owner != current->euid) && /* 人 允许 执行 su 命令 的 用 户 */ 
!capable{(CRP_DRC_OVERRIDE)) { /* 也 人 允许 root 用 户 */ 
spin_unlock{&scull u lock); 
return -EBUSY:; /* 返回 -EPERM 会 让 用 户 混 消 */ 
} 


If (BelL Ud count = 0 
scull _u_owner = current->uid; /* 获得 所 有 者 */ 


scull u_count++; 
spin_unlock(&scull_u_lock); 


注意 ，sculluid 代码 有 两 个 变量 (scull_u_owner 和 scull_u_count), 这 两 个 变量 控 
制 对 设备 的 访问 , 并 且 可 由 多 个 进程 并 发 地 访问 。 为 了 让 这 些 变 量 安全 , 我 们 通过 一 个 
自 旋 锁 (scull_u_lock) 来 保护 对 这 些 变量 的 访问 。 没 有 这 个 锁 , 两 个 (或 更 多 ) 的 
进程 可 能 在 同一 时 刻 测试 scul1_u_count ,而 它们 均 可 能 做 出 可 获得 设备 所 有 权 的 结 
论 。 这 里 采用 自 旋 锁 的 原因 在 于 ， 锁 的 拥有 时 间 将 非常 短 ， 而 在 拥有 锁 的 时 间 内 ， 驱 动 
程序 不 会 做 任何 可 能 休眠 的 工作 。 


即使 代码 执行 的 是 权限 检查 , 但 我 们 还 是 选择 返回 -EBUSY 而 不 是 -EPERM, 以 便 给 被 
拒绝 访问 的 用 户 提示 正确 的 信息 。 返 回 “ 权 限 拒绝 (Permission denied)” 通 常 是 检查 
/dev 文件 的 模式 和 属 主 的 结果 ， 而 “设备 忙 (Device busy )” 提 示 用 户 设备 已 经 被 进程 
使 用 。 


代码 还 检查 了 试图 打开 设备 的 进程 是 否 有 越过 文件 访问 权限 的 能 力 ; 如 果 是 这 样 , 允许 
它 进行 打开 操作 ,即使 这 个 进程 不 是 设备 属 主 。 在 这 种 情况 下 ，CAP_DAC_OVERRIDE 下 
适合 于 完成 这 项 任务 。 


release 方法 如 下 实现 : 


static int scull_u_release(struct inode *inode, struct file *filp} 
下 

spin lock(&scull_u_lock); 

scull_u_count--; /* 除 此 之 外 不 做 任何 事情 */ 

spin unlock{g&scull_u_lock); 

return 0; 
} 


我 们 再 次 看 到 , 在 修改 计数 之 前 , 我 们 必须 获取 自 旋 锁 , 这 样 就 不 会 和 其 他 进程 发 生 况 
和 争 。 
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替代 EBUSY 的 阻塞 型 open 


当 设备 不 能 访问 时 返回 一 个 错误 , 通常 这 是 最 合理 的 方式 , 但 有 些 情况 下 可 能 需要 让 进 
程 等 待 设备 。 


例如 ， 如果 一 个 以 周期 性 的 、 预 定 的 方式 发 送 定时 报告 的 数据 通道 , 同时 也 能 根据 人 们 
的 需要 而 临时 使 用 , 那么 在 通道 正 忙 的 时 候 ， 定时 报告 最 好 能 够 稍微 延迟 一 会 儿 , 而 不 
是 因为 通道 忙 就 返回 失败 。 


这 是 在 设计 设备 驱动 程序 时 程序 员 必 须 作 出 的 选择 , 所 解决 的 问题 不 同 , 答案 也 就 不 一 
样 。 


读者 可 能 已 经 想到 ， 代 替 EBUSY 的 另 一 个 方法 是 实现 阻塞 型 open。sculiwuid 设备 和 
sculluid 的 不 同 是 ，open 时 会 等 待 设备 而 不 是 返回 -EBUSY。 它 和 sculluid 只 在 open 操 
作 的 下 列 部 分 不 同 : 


spin_lock(&scull_w_lock); 

while (! scull w available()) { 
spin_unlock(&scull_w_lock); 
if (filp->f_flags & O_NONBLOCK) return -EAGAIN; 
if {wait_event_interruptible (scull_w wait, scull_w_available()}))} 

return -ERESTARTSYS; /* 告诉 fs 层 做 进一步 处 理 */ 

spin_lock{&scull_w_lock); 

} 

if {scull w_count = = 0) 
scull_w_owner = current->uid; /* 获取 所 有 者 */ 

scull_w_count++; 

spin_ unlock{(&scull_w_lock}); 


这 里 的 实现 又 是 基于 等 待 队列 .创建 等 待 队列 是 为 了 维护 一 个 因 等 待 事件 而 休眠 的 进程 
的 列表 ， 所 以 在 这 里 使 用 非常 合适 。 


接 下 来 ，release 方法 唤醒 所 有 等 待 的 进程 : 


static int scull w_releaselstruct inode *inode, struct file *filp) 
{ 
int temp; 


spin_lock(&scull_w_lock); 
scull_w_count-~; 
temp = scull_w_count; 
spin_unlock(&scull _w_lock); 
if (temp = = 0) 
wake_up_interruptible_sync(&scull_w_ wait); / 唤醒 其 他 的 uiad 进程 */ 
return 0; 
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上 面 恰 好 给 出 了 调用 wake_up_interruptible_sync 函数 的 一 个 例子 。 在 执行 这 个 唤醒 时 ， 
我 们 正 打算 返回 到 用 户 空间 ， 而 这 恰好 就 是 系统 的 调度 点 。 因 此 ， 在 执行 这 个 唤醒 时 ， 
我 们 没有 必要 引发 潜在 的 重新 调度 ， 而 只 需要 调用 “sync” 版 本 并 结束 我 们 的 工作 。 


阻塞 型 open 实 现 中 的 问题 是 , 对 于 交互 式 用 户 来 说 它 是 令 人 很 不 愉快 的 ,用户 可 能 会 在 
等 待 中 猜测 设备 出 了 什么 问题 。 交 互 式 用 户 通常 使 用 诸如 cp 和 rar 这 样 的 预先 编译 好 的 
命令 ,它们 都 没有 在 open 调用 中 加 入 0_NONBLOCK 选项 。 隔 改正 使 用 磁带 机 做 备份 的 
同事 可 能 更 愿意 得 到 一 条 清晰 的 消息 “设备 或 资源 忙 ”, 而 不 是 在 ar 命令 扫描 磁盘 的 时 
候 坐 在 一 边 猜 想 为 什么 今天 的 硬盘 这 么 安静 。 


这 类 问题 (对 同一 设备 的 不 同 的 、 不 兼容 的 策略 ) 最 好 通过 为 每 一 种 访问 策略 实现 一 个 
设备 节点 的 方法 来 解决 。 这 种 实现 的 一 个 例子 是 Linux 的 磁带 设备 驱动 程序 ， 它 为 同一 
个 设备 提供 了 多 个 设备 文件 。 不 同 的 设备 文件 会 使 设备 以 不 同 的 方式 工作 , 例如 是 否 以 
压缩 方式 记录 、 在 设备 关闭 时 是 否 自动 回 卷 磁带 ， 等 等 。 


在 打开 时 复制 设备 


另 一 个 实现 访问 控制 的 方法 是 ， 在 进程 打开 设备 时 创建 设备 的 不 同 私有 副本 。 


显然 这 种 方法 只 有 在 设备 没有 绑 定 到 某 个 硬件 对 象 时 才能 实现 。 scull 就 是 这 样 一 个 “ 软 
设备 ”的 例子 。/dev/tty 内 部 也 使 用 了 类 似 的 技术 , 以 提供 给 它 的 进程 一 个 不 同 于 /dev 入 
口 点 所 表现 出 的 “情景 "。 如果 复 制 的 设备 是 由 软件 驱动 程序 创建 的 , 我 们 称 它们 为 “ 虚 
拟 设备 ”一 一 就 像 所 有 的 虚拟 终端 都 使 用 同一 个 物理 终端 设备 一 样 。 


虽然 这 种 访问 控制 并 不 常见 ,但 它 的 实现 展示 了 内 核 代码 可 以 轻松 地 改变 应 用 程序 看 到 
的 外 部 环境 (如 计算 机 )。 


scull 包 中 的 /deviscullpriy 设备 节点 实现 了 虚拟 设备 。 在 suclipriv 的 实现 中 ,使 用 当前 
进程 控制 终端 的 次 设备 号 作为 访问 虚拟 设备 的 键 值 ,不 过 这 个 来 源 可 以 很 容易 地 修改 成 
用 任意 整数 值 作为 键 值 , 不 同 的 键 值 将 导致 不 同 的 策略 。 例如, 使 用 uid 会 导致 给 每 个 
用 户 复制 不 同 的 虚拟 设备 ， 使 用 pid 则 会 导致 为 每 个 访问 该 设备 的 进程 复制 一 个 新 设 
备 。 


使 用 控制 终端 意味 着 可 以 通过 输入 /输出 重 定 向 来 简化 而 试 设备 : 运行 在 某 一 个 虚拟 终 
端的 所 有 命令 共享 设备 ,这 个 设备 与 在 另 一 个 终端 上 运行 的 命令 所 看 到 的 设备 互相 独立 。 


open 方 法 的 代码 如 下 。 它 必须 找到 正确 的 虚拟 终端 ,也许 还 需要 新 创建 一 个 。 函 数 的 最 
后 一 部 分 没有 列 出 ,因为 它 是 从 裸 scul1 中 复制 过 来 的 , 而 这 些 代 码 我 们 已 经 看 到 过 了 。 
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/* 和 复制 相关 的 数据 结构 包括 一 个 key 成 员 */ 


struct scull_listitem { 
struct scull_dev device; 
dev_t key; 
struct list_head list; 
> 


/* 设备 的 链表 ， 以 及 保护 它 的 锁 */ 
static LIST_HERAD(Sscu1l1_c_1ist); 
static spinlock_t scul1l1_c_lock = SPIN_LOCK_UNLOCKED; 


/* 查找 设备 ， 如 果 没 有 就 创建 一 个 */ 
static struct scull dev *scull c_ lookfor_ device{dev_t key) 
{ 

struct scull_listitem *1lptr; 


list_for each_entry(lptr, &scull c_list, list) { 
if (lptr->key = = key) 
return &{(lptr->device); 


} 


/* 没有 找到 */ 
lptr = kmalloc{(sizeof (struct scull_listitem), GFP_KERNEL); 
1 Tot 

return NULL; 


/* 初始 化 该 设备 */ 

memset (lptr, 0, sizeof(struct scull_listitem))}; 
lptr->key = key; 

scull_ trim(& (lptr->device})); /* 初始 化 */ 

init_ MUTEX(&(lptr->device.sem)}); 


/* 将 其 放 到 链表 中 */ 
list add{(&lptr->list, &scull_c_list); 


return &(lptr->device); 
} 


static int scull_c_open(struct inode *inode, struct file *filp) 
{ 

struct scull_dev *dev; 

dev_t key; 


it {icurrent->signal->tty} { 
PDEBUG{"Process \"%s\" has no ctl tty\n", current->comm); 
return -EINVAL; 

} 

key = tty_devnum{current->signal->tty); 


/* 在 链表 中 查找 scullc 设备 */ 
spin_lock(&scull_c_lock) : 

dev = scull_c_loocokfor_dqevice (key) ; 
spin _ unlock{&scull_c_lock); 
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if (idqev) 
return -ENOMEM; 


/* 然后 ， 从 禄 的 scull 设备 中 复制 所 有 其 他 数据 */ 


release 方 法 没有 做 什么 特殊 处 理 . 它 通 常 在 最 后 一 次 关闭 时 释放 设备 , 但 是 为 了 简化 测 
试 , 这 里 没有 维护 一 个 打开 设备 的 计数 器 。 如 果 设 备 在 最 后 一 次 关闭 时 被 释放 了 , 则 在 
写 人 设备 后 将 不 能 再 从 中 读 出 同样 的 数据 , 除非 有 一 个 后 台 进 程 保持 打开 它 。 我 们 的 示 
例 驱 动 程序 使 用 了 比较 简单 的 方法 来 保存 数据 ,所 以 在 下 一 次 打开 设备 时 还 能 找到 那些 
数据 。 设 备 在 scull_cleanup 被 调用 时 释放 。 


上 述 代码 使 用 了 Linux 的 通用 链表 机 制 ， 而 不 是 自行 编写 完成 相同 功能 的 代码 。Linux 
链表 在 第 十 一 章 中 讨论 。 


这 里 是 /dev/scullpriv 的 release 的 实现 。 对 于 设备 方法 的 讨论 也 到 此 结束 。 


static int scull_c,release(struct inode *inode, struct file *filp) 
{ 
/* 
* 因为 设备 是 持久 的 ， 所 以 不 需要 做 任何 工作 。 
* 一 个 “真正 ”的 克隆 设备 应 该 在 最 后 一 次 关闭 时 被 释放 
二 
return 0; 


快速 参考 
本 章 介绍 了 下 面 这 些 符号 和 头 文件 : 


#include <linux/ioctl.h> 


这 个 头 文件 声明 了 用 于 定义 ioct! 命 令 的 所 有 的 宏 。 它 现在 包含 在 <linux/fs.h> 中 。 


_IOC_NRBITS 

_IOC_TYPEBITS 

LIOC SIZEBITS 

TOC DINBITS 
ioct! 命 令 的 不 同位 字段 的 可 用 位 数 。 还 有 四 个 宏 定义 了 不 同 的 MASK ( 掩 码 )， 另 
外 四 个 宏 定 义 了 不 同 的 SHIFT ( 偏 移 ), 但 它们 基本 上 仅 在 内 部 使 用 。 由 于 
_IOC_SIZEBITS 在 不 同体 系 架构 上 的 值 不 同 ， 因 此 需要 重点 关注 。 
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_IOC_NONE 
_IOC_RERAD 
_IOC_WRITE 
“方向 ”位 字段 的 可 能 值 。“ 读 ”和 “与 ”是 不 同 的 位 ， 可 以 “OR” 在 一 起 来 指定 
读 / 写 。 这 些 值 都 是 基于 0 的 。 
_IOC{(dir,type,nr,size} 
_IO(type,nr) 
_IOR{type,nr,size) 
_IOW (type,nr,size) 
_IOWR (type,nr, size)} 
用 于 生成 iocti 命令 的 宏 。 


_IOC_DIR (nr)} 

IOC TYPE (2 

_IOC_NR (nr) 

_IOC_SIZE (nr) 
用 于 解码 ioct! 命 令 的 宏 。 特别 地 ，_IOC_TYPE (nr) 是 _IOC_READ 和 _IOC_WRITE 
进行 “OR” 的 结果 。 

#include <asm/uaccess.h> 

int access_ok(int type, const void *addr, unsigned long size)}; 
这 个 函数 验证 指向 用 户 空 间 的 指针 是 否 可 用 。 如 果 人 允许 访问 ,access_ok 返 回 非 零 
值 。 


VERIFY_READ 
VERIFY_WRITE 
在 access_ok 中 type 参 数 可 取 的 值 . VERIFY_WRITE 是 VERIFY_READ 的 超 集 。 


#include <asm/uaccess.h> 

int put_user (datum,ptr}; 

int get_user{local,ptr); 

int __put_user(datum,ptr)}; 

int __get_user{local,ptr); 
用 于 向 (或 从 ) 用 户 空间 保存 (或 获取 ) 单个 数据 项 的 宏 。 传 送 的 字 节 数目 由 
sizeof(*ptr) 决 定 。 前 两 个 要 先 调用 access_ok， 后 两 个 (__put_user 和 
__get_user) 则 假设 access_ok 已 经 被 调用 过 了 。 


#include <linux/capability.h> 


定义 有 各 种 CAP_ 符 号， 用 于 描述 用 户 空 间 进 程 可 能 拥有 的 权能 操作 。 
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int capablel(int capability); 
如 果 进 程 具有 指定 的 权能 ， 返 回 非 零 值 。 


#include <linux/wait.h> 

typedef struct { /* ... */ } wait_queue_ head 七 ; 

void init_waitqueue_head{wait_queue, head t *queue) : 

DECLARE_WAIT_ QUEUE_ HEAD (queue); 
预先 定义 的 Linux 等 待 队 询 类 型 .wait_queue_head_t 类 型 必须 显 式 地 初始 化 ， 
初始 化 方法 可 在 运行 时 用 init_waitgueue_head， 或 在 编译 时 用 DECLARE _ 
WAIT_QUEUE HEAD., 


void wait_event (wait_queue head t q, int condition); 

int wait_event interruptible(wait_queue head t q, int condition); 

int wait_event_timeout (wait_queue head t q, int condition, int time); 

int wait_event_interruptible timeout (wait_queue head t q, int condition, 
int time); 


使 进程 在 指定 的 队列 上 休 眼 ， 直 到 给 定 的 condition 值 为 真 。 


void wake_up (stzuct wait_queue **q); 

void wake_up_interruptible(struct wait_queue **q); 

void wake_up_nr{struct wait_queue **q, int nr); 

void wake_up_interruptible_nr{struct wait_queue **q, int nr); 

void wake up_alll(struct wait_queue **q); 

void wake_ up_interruptible_all (struct wait_queue **q); 

void wake_up_interruptible_ sync(struct wait_queue **q); 
这 些 函 数 唤醒 休眠 在 队列 q 上 的 进程 。interruptible 形 式 的 函数 只 能 唤醒 可 中 断 的 
进程 。 通常 ， 只 会 唤醒 一 个 独占 等 待 进程 ， 但 其 行为 可 通过 _nr 或 _all 形 式 改变 。 
_sync 版 本 的 唤醒 函数 在 返回 前 不 会 重新 调度 CPU 。 


#include <linux/sched.h> 

set_current_statelint state); 
设置 当前 进程 的 执行 状态 。TASK_RUNNING 表示 准备 运行 ， 而 休眠 状态 是 
TASK_ INTERRUPTIBLE 和 TASK_UNINTERRUPTIBLE。 


void schedule(void); 
从 运行 队列 中 选择 一 个 可 运行 进程 。 选 定 的 进程 可 以 是 current 或 另 一 个 不 同 的 
进程 。 
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typedef struct { /* ... */ } wait, queue_t; 
init_ waitqueue entry (wait_ queue_t *entry, struct task_struct *task); 


wait_queue_t 类 型 用 来 将 某 个 进程 放置 到 一 个 等 待 队列 上 。 


void prepare to wait (wait_queue head t *queue, wait queue t *wait, int state); 

void prepare to wait_exclusive{wait_queue head t *queue, wait_queue_t *wait, 
int state); 

void finish wait(wait_queue_head t *queue, wait_queue_t *wait); 


可 用 于 手工 休 虑 代码 的 辅助 函数 。 


void sleep_on(wiat queue head_ t *queue); 
void interruptible_sleep_on(wiat_queue head t *queue); 


已 废弃 的 两 个 函数 ， 它 们 将 当前 进程 无 条 件 地 置 于 休眠 状态 。 


#include <linux/poll.h> 

void poll wait(struct file *filp, wait_queue head t *q, poll_table *p) 
将 当前 进程 置 于 某 个 等 待 队列 但 并 不 立即 调度 。 该 函数 主要 用 于 设备 驱动 程序 的 
pol 方法 。 

int fasync_helper(struct inode *inode, struct file *filp, int mode, struct 

fasync_struct **fa); 

用 来 实现 fasync 设备 方法 的 辅助 函数 。mode 参数 取 传人 该 方法 的 同一 值 ， 而 fa 
指向 设备 专 有 的 Easync_struct *。 


void kil11_fasync(struct fasync_struct *fa, int sig, int band); 
如 果 驱 动 程序 支持 异步 通知 , 则 这 个 函数 可 以 用 来 发 送 一 个 信号 给 注册 在 fa 中 的 
进程 。 

int nonseekable_open(Struct inode *inogde, struct file *filp); 

loff_t no_llseek(struct file *file, loff_t offset, int whence); 
任何 不 支持 定位 的 设备 都 应 该 在 其 open 方法 中 调用 nonseekable_open。 这 类 设备 
还 应 该 在 其 liiseek 方 法 中 使 用 no_llseek。 


第 七 章 
时 间 、 延 迟 及 
延缓 操作 


至 此 , 我 们 已 基本 知道 如 何 编写 一 个 功能 完整 的 字符 模块 了 。 现实 中 的 设备 驱动 程序 除 
了 实现 必需 的 操作 外 还 要 做 更 多 工作 ， 如 定时 、 内 存 管 理 ， 硬 件 访问 等 等 。 幸 好 ， 内 核 
中 提供 的 许多 机 制 可 以 简化 驱动 程序 开发 者 的 工作 。 我 们 将 在 后 面 几 章 陆 续 讨论 驱动 程 
序 可 以 访问 的 一 些 内 核资 源 。 在 本 章 中 , 我 们 先 来 看 看 内 核 代 码 是 如 何 对 时 间 问 题 进行 
处 理 的 ， 并 按 由 简 到 难 的 顺序 逐步 讨论 ， 其 中 包括 : 








。 ”如 何 度 量 时 间 差 ， 如 何 比 较 时 间 

。 ”如 何 获 得 当前 时 间 

。 ”如 何 将 操作 延迟 指定 的 一 段 时 间 

。 ”如 何 调度 异步 函数 到 指定 的 时 间 之 后 执行 


度量 时 间 差 
内 核 通过 定时 器 中 断 来 跟踪 时 间 流 。 本 书 第 十 章 将 详细 讲述 中 断 的 处 理 。 


时 钟 中 断 由 系统 定时 硬件 以 周期 性 的 间隔 产生 ， 这 个 间隔 由 内 核 根据 Hz 的 值 设 定 ，Hz 
是 一 个 与 体系 结构 有 关 的 常数 ， 定 义 在 <linux/param.h> 或 者 该 文件 包含 的 某 个 子平 台 
相关 的 文件 中 。 对 真实 硬件 , 已 发 布 的 Linux 内 核 源 代码 为 大 多 数 平台 定义 的 默认 HZ 值 
范围 为 50 ~ 1200， 而 对 软件 仿真 器 的 HZ 值 是 24。 大 多 数 平台 每 秒 有 100 或 1000 次 时 
钟 中 断 ， 而 在 常见 的 x86 PC 平台 上 , 默认 定义 为 1000 (在 包括 2.4 在 内 的 早期 版 本 中 ， 
该 平台 上 的 Hz 值 定义 为 100)。 作 为 一 般 性 的 规则 ,即使 知道 对 应 平台 上 的 确切 HZ 值 ， 
也 不 应 在 编程 时 依赖 该 HZ 值 。 


如 果 想 改变 系统 时 钟 中 断 发 生 的 频率 ， 可 以 通过 修改 Hz 值 来 进行 。 但 是 ， 如 果 修改 了 
头 文件 中 的 Hz 值 ， 则 必须 使 用 新 的 值 重新 编译 内 核 以 及 所 有 模块 。 读 者 也 许 想 提高 H2z 
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值 以 在 异步 任务 中 获得 更 细 的 分 辩 率 ,但 同时 应 考虑 由 此 引入 的 额外 时 钟 开销 ,实际 上 ， 
在 使 用 2.4 和 2.6 版 本 内 核 的 x86 工 业 系 统 中 , 将 HzZ 提 高 到 1000 是 非常 常见 的 。 但 对 当 
前 版 本 来 说 ， 我 们 应 充分 信任 内 核 开 发 者 ; 他 们 已 经 为 我 们 选择 了 最 适合 的 Hz 值 ， 因 
此 我 们 应 该 保留 默认 的 Hz 值 而 不 要 自行 调整 。 另 外 ， 某 些 内 部 计算 的 实现 仅仅 适用 于 
Hz 取 12~1535 之 间 值 的 情况 ( 见 <linux/timex.h> 和 RFC-1589)。 


每 次 当时 钟 中 断 发 生 时 , 内 核 内 部 计数 器 的 值 就 增加 一 。 这 个 计数 器 的 值 在 系统 引导 时 
被 初始 化 为 0， 因 此 ， 它 的 值 就 是 自 上 次 操作 系统 引导 以 来 的 时 钟 滴 答 数 。 这 个 计数 器 
是 一 个 64 位 的 变量 (即使 在 32 位 架构 上 也 是 64 位 ), 称 为 “jiffies_64”。 但 是 ,驱动 程 
序 开发 者 通常 访问 的 是 jiffies 变量 ， 它 是 unsigned 1long 型 的 变量 ， 要 么 和 
jiffies_64 相 同 ,要么 仅仅 是 jiffies_64 的 低 32 位 。 通常 首选 使 用 jiffies, 因为 
对 它 的 访问 很 快 ， 从 而 对 64 位 jiffies_64 值 的 访问 并 不 需要 在 所 有 架构 上 都 是 原子 
的 。 


除了 由 内 核 管理 的 低 分 辨 率 jiffy 机 制 ， 某 些 CPU 平台 还 包含 有 一 个 软件 可 读 取 的 高 分 
辩 率 计数 器 。 尽管 这 个 计数 器 的 具体 使 用 方法 在 不 同 的 平台 上 有 所 不 同 , 但 某 些 情况 下 
仍 是 一 个 非常 强大 的 工具 。 


使 用 jiffies 计数 器 


该 计数 器 和 读 取 计数 器 的 工具 函数 包含 在 <linux/jiffies.h> 中 ,但 是 通常 只 需 包 含 <linux/ 
sched.h> 文件 ， 后 者 会 自动 放 入 jiffies.h。 还 需要 说 明 的 是 ，jiffies 和 jiffies_64 
均 应 被 看 成 只 读 变 量 。 


在 代码 需要 记录 jiffies 的 当前 值 时 , 可 简单 访问 上 面 说 过 的 unsigned long 变 量 。 
该 变量 被 声明 为 volatile, 这 样 可 避免 编译 器 对 访问 该 变量 的 语句 的 优化 。 在 代码 需要 计 
算 未 来 的 时 间 改 时， 必须 读 取 当 前 的 计数 器 ， 如 下 例 所 示 : 


#include <linux/jiffies.h> 
unsigned long j, stamp_l1, stamp_half, stamp_n; 


j = jiffies; /* 读 取 当前 值 */ 
stamp._1 = jj + H2; /* 未 来 的 1 种 */ 
stamp_half = j + HZ/2; /* 半 秒 */ 
stamp_n =j+n* HZ /1000; /* n 毫秒 */ 


只 要 采用 正确 的 方法 来 比较 不 同 的 值 ， 上 述 代码 就 不 会 因为 jiffies 的 溢出 而 出 现 问 
题 。 虽 然 在 32 位 平台 上 ， 当 Hz 取 值 1000 时 ， 每 过 大 约 50 天 该 计数 器 才 会 溢出 一 次 ， 
但 代码 仍然 应 仔细 处 理 这 一 问题 。 比 较 缓存 值 (比如 上 面 的 stamp_1) 和 当前 值 时 ， 应 
该 使 用 下 面 的 宏 : 
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#include <linux/jiffies.h> 

int time_after{(unsigned long a, unsigned long b); 

int time_before(unsigned long a, unsigned long b); 

int time_after eqlunsigned long a, unsigned long b); 

int time_before eq(lunsigned long a, unsigned long b); 
如 果 a (jiffies 的 某 个 快照 ) 所 代表 的 时 间 比 b 靠 后 ， 则 第 一 个 宏 返 回 真 ;， 如果 a 比 
b 靠 前 ， 则 第 二 个 宏 返 回 真 ， 后面 两 个 宏 分 别 用 来 比较 “ 靠 后 或 者 相等 ”及 “ 靠 前 或 者 
相等 "。 这 些 宏 会 将 计数 器 值 转 换 为 signed 1ong， 相 减 ， 然 后 比较 结果 。 如 果 需 要 
以 安全 的 方式 计算 两 个 jiffies 实例 之 间 的 差 ， 也 可 以 使 用 相同 的 技巧 : 


diff = (long}t2 - (long)t1;: . 
而 通过 下 面 的 方法 ， 可 将 两 个 jiffies 的 差 转 换 为 毫秒 值 : 
msec = diff * 1000 / HZ:; 


但 是 ， 我 们 有 时 需要 将 来 自用 户 空间 的 时 间 表 述 方法 (使 用 struct 上 timeval 和 
struct timespec) 和 内 核 表 述 方法 进行 转换 。 这 两 个 结构 使 用 两 个 数 来 表示 精确 
的 时 间 : 在 老 的 、 流 行 的 struct timeval 中 使 用 秒 和 毫秒 值 ， 而 较 新 的 struct 
timespce 中 则 使 用 秒 和 纳 秒 , 前 者 比 后 者 出 现 得 早 , 但 更 常用 。 为 了 完成 jiffies 值 和 
这 些 结构 间 的 转换 ， 内 核 提供 了 下 面 四 个 辅助 函数 : 


#include <linux/time.h> 


unsigned long timespec._to_ jiffies(struct timespec *value); 

void jiffies_ to_timespec (unsigned long jiffies, struct timespec *value); 
unsigned long timeval_to jiffies(struct timeval *value); 

void jiffies_to.timeval (unsigned long jiffies, struct timeval *value); 


对 64 位 jiffies_64 的 访问 不 像 对 jiffies 的 访问 那样 直接 。 在 64 位 计算 机 架构 上 ， 
这 两 个 变量 其 实 是 同一 个 ; 但 在 32 位 处 理 器 上 ,对 64 位 值 的 访问 不 是 原子 的 。 这 意味 
着 ,在 我 们 读 取 64 位 值 的 高 32 位 及 低 32 位 时 ， 可 能 会 发 生 更 新 ， 从 而 获得 错误 的 值 。 
因此 ,对 64 位 计数 器 的 直接 读 取 是 很 靠不住 的 , 但 如 果 必 须 读 取 64 位 计数 器 ， 则 应 该 
使 用 内 核 导 出 的 一 个 特殊 辅助 函数 ， 该 函数 为 我 们 完成 了 适当 的 锁定 : 

#include <linux/jiffies.h> 

u64 get_jiffies_64({void); 
在 上 面 的 函数 原型 中 使 用 了 u64 类 型 。 这 是 由 <linux/types.h> 定 义 的 类 型 之 一 , 我们 将 
在 第 十 一 章 讨论 这 些 类 型 ， 它 其 实 代 表 了 一 个 无 符号 的 64 位 类 型 。 


如 果 读 者 对 32 位 平台 如 何 同时 更 新 32 位 及 64 位 计数 器 感到 疑惑 的 话 , 可 阅读 对 应 平台 
上 的 链接 器 脚本 (寻找 其 名 称 匹 配 于 vmlinux*.1ds* 的 文件 ), 在 链接 器 脚本 中 ,jiffies 
符号 被 定义 为 访问 64 位 值 的 高 (或 低 ) 32 位 字 ， 这 取决 于 系统 是 大 头 的 (big-endian) 
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还 是 小 头 的 《little-endian )。 实 际 上 , 相同 的 技巧 也 用 于 64 位 平台 , 这 样 ， 代 码 就 会 在 
同一 地 址 访问 unsigneda 1ong 类 型 和 u64 类 型 的 变量 。 


最 后 , 需要 注意 ,实际 的 时 钟 频率 对 用 户 空间 来 讲 几 平 是 完全 不 可 见 的 。 当 用 户 空间 程 
序 包含 param.h 时 ,HZ 宏 始 终 被 扩展 为 100, 而 每 个 报告 给 用 户 空 间 的 计数 器 值 均 做 了 
相应 的 转换 。 这 一 说 法 适应 于 clock{3)、times{2) 以 及 其 他 任何 相关 函数 。 对 用 户 来 讲 ， 
如 果 想 知道 定时 器 中 断 的 克 切 HZ 值 ， 只 能 通过 /proclinterrupts 获得 。 例 如 ， 将 通过 
/proclinterrupts 获得 的 计数 值 除 以 /proc/uptime 文件 报告 的 系统 运行 时 间 , 即 可 获得 内 
核 的 确切 HzZ 值 。 


处 理 器 特定 的 寄存 器 


如 果 需 要 度量 非常 短 的 时 间 , 或 是 需要 极 高 的 时 间 精 度 , 就 可 以 使 用 与 特定 平台 相关 的 
资源 ， 这 是 将 时 间 精 度 的 重要 性 凌驾 于 代码 的 可 移植 性 之 上 的 做 法 。 


在 现代 处 理 器 中 , 由 于 缓存 、 指 令 调度 、 分 支 预测 等 技术 的 应 用 , 在 大 部 分 的 CPU 设计 
中 ,指令 时 序 本 质 上 是 不 可 预测 的 , 这 样 ， 依赖 于 指令 周期 的 经 验 型 性 能 描述 方法 就 不 
再 适用 。 为 了 解决 这 一 问题 , CPU 制造 商 引 入 了 一 种 通过 计算 时 钟 周期 来 度量 时 间 差 的 
简便 而 可 靠 的 方法 , 绝 大 多 数 现代 处 理 器 都 包含 一 个 随时 钟 周期 不 断 递 增 的 计数 寄存 器 。 
这 个 时 钟 计数 器 是 完成 高 分 辩 率 计时 任务 的 唯一 可 靠 途径 。 


基于 不 同 的 平台 , 在 用 户 空间 , 这 个 寄存 器 可 能 是 可 读 的 ， 也 可 能 不 可 读 ; 可 能 是 可 写 
的 ,也 可 能 不 可 写 ; 可 能 是 64 位 的 ， 也 可 能 是 32 位 的 。 如 果 是 32 位 的 ， 还 得 注意 处 理 
溢出 的 问题 。 在 某 些 平台 上 , 该 寄存 器 可 能 根本 不 存在 , 或 者 如 果 CPU 缺少 这 个 特性 ， 
而 我 们 又 需要 处 理 这 种 特殊 的 需求 ， 则 可 能 会 由 硬件 设计 者 通过 外 部 设备 来 实现 。 


无 论 该 寄存 器 是 否 可 以 置 0， 我 们 都 强烈 建议 不 要 重 置 它 ， 即 使 硬件 允许 这 么 做 。 毕 竟 
我 们 不 是 该 计数 器 的 唯一 用 户 , 例如 在 支持 SMP 的 平台 上 , 内 核 会 依赖 这 种 计数 器 来 保 
持 处 理 器 之 间 的 同步 。 因 为 总 可 以 通过 多 次 读 取 该 寄存 器 并 比较 读 出 数值 的 差异 来 完成 
要 做 的 事 ， 故 无 需要 求 独占 该 寄存 器 并 修改 它 的 当前 值 。 


最 有 名 的 计数 器 寄存 器 就 是 TSC (timestamp counter, 时 间 惟 计数 器 ), 从 x86 的 Pentium 
处 理 器 开始 提供 该 寄存 器 ， 并 包括 在 以 后 的 所 有 CPU 中 ,包括 x86_64 在 内 。 它 是 一 个 
64 位 的 寄存 器 ， 记 录 CPU 时 钟 周 期 数 ， 从 内 核 空间 和 用 户 空 间 都 可 以 读 取 它 。 


包含 头 文件 <asm/msr.h> (x86 专用 的 头 文件 ， 意 指 “machine-specific registers ， 机 器 
特有 的 寄存 器 ”) 之 后 ， 就 可 以 使 用 如 下 的 宏 : 


rdtsc (low32,high32); 
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rdtscl (low32); 
rdtscll (var64); 


第 一 个 宏 原 子 性 地 把 64 位 的 数值 读 到 两 个 32 位 变量 中 ; 后 一 个 只 把 寄存 器 的 低 半 部 分 
读 人 一 个 32 位 变量 ， 而 废弃 高 半 部 分 ; 最 后 这 个 宏 将 64 位 值 读 人 一 个 long long 型 
的 变量 。 上 面 所 有 的 宏 都 会 将 值 保存 到 对 应 的 参数 中 。 


在 大 多 数 常见 的 TSC 应 用 中 , 读 取 计 数 器 的 低 半 部 分 就 够 了 。1-GHz 的 处 理 器 每 4.2 秘 
才 会 溢出 ， 因 此 ， 如 果 我 们 度量 的 时 间 差 确定 很 短 的 话 ， 就 不 需要 处 理 多 个 寄存 器 值 。 
但 是 ， 随 着 CPU 主 频 的 提高 以 及 计时 需求 的 增加 ， 将 来 肯定 需要 读 取 64 位 的 计数 值 。 


下 面 这 段 代 码 仅仅 使 用 了 该 寄存 器 的 低 半 部 分 ， 可 用 来 测量 该 指令 自身 的 运行 时 间 : 


unsigned long ini, end; 

rdtscl (ini); rdtscl (end); 

printk("time lapse: %li\n", end - ini); 
其 他 一 些 平台 也 提供 了 类 似 的 功能 ,在 内 核 头 文件 中 还 有 一 个 与 体系 结构 无 关 的 肖 数 可 
以 代替 rdtsc, 即 get_cycles, 它 定义 在 <asmltimex.h> 中 (由 <linux/timex.h> 包 含 ), 其 
原型 如 下 : 

#include <linux/timex.h> 

cycles t get_cycles(void); 
在 各 种 平台 上 都 可 以 使 用 这 个 函数 ,在 没有 时 钟 周期 计数 寄存 器 的 平台 上 它 总 是 返回 0。 
cycles_t 类 型 是 能 装 人 读 取 值 的 合适 的 无 符号 类 型 。 


除了 这 个 与 体系 结构 无 关 的 函数 外 , 我们 还 将 举例 说 明 一 段 内 嵌 的 汇编 代码 。 为 此 , 我 
们 将 针对 MIPS 处 理 器 实现 一 个 rdtsc! 函数 ， 其 功能 与 x86 的 一 样 。 


这 个 例子 之 所 以 基于 MIPS,， 是 因为 大 多 数 MIPS 处 理 器 都 有 一 个 32 位 的 计数 器 ,在 它 
们 内 部 的 “coprocessor 0” 中 称 它 为 寄存 器 9。 为 了 从 内 核 空间 读 取 访 寄存器， 可 以 定 
义 下 面 的 宏 ， 它 执行 “从 coprocessor 0 读 取 ”的 汇编 指令 ( 注 1): 


#define rdtscl (dest) \ 
__asm volatile__("mfc0 %0,$9; nop" : "=r" (dest)) 


通过 使 用 这 个 宏 ，MIPS 处 理 器 就 可 以 执行 前 面 用 于 x86 的 代码 了 。 





注 1: 尽 部 的 nop 指令 是 必需 的 ,以 防止 编译 器 在 指令 mfco 之 后 立即 访问 目标 寄存 器 。 这 种 互 
锁 在 RISC 处理 器 中 是 很 典型 的 , 在 延迟 期 间 编译 器 仍然 可 以 调度 其 他 指令 执行 。 我 们 在 
这 里 使 用 nop， 是 因为 内 赋 汇 编 对 编译 器 而 言 是 个 黑金 子 ， 不 能 进行 优化 。 
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gcc 内 风 汇 编 的 有 趣 之 处 在 于 通用 寄存 器 的 分 配 使 用 是 由 编译 器 完成 的 。 这 个 宏 中 使 用 
的 %0 只 是 “参数 0” 的 占 位 符 , 参数 0 由 随后 的 “作为 输出 (=) 使 用 的 任意 寄存 器 (rr)” 
指定 。 该 宏 还 声明 了 输出 寄存 器 要 对 应 于 C 的 表达 式 aest。 内 嵌 汇 编 的 语法 功能 强大 ， 
但 也 比较 复杂 , 特别 是 在 对 各 寄存 器 使 用 有 限制 的 平台 上 更 是 如 此 ， 如 x86 系列 。 完 整 
的 语法 描述 在 gcc 文档 中 提供 ， 一 般 在 info 文档 树 中 就 可 以 找到 。 


本 小 节 展 示 的 短小 的 C 代 码 段 已 经 在 一 个 K7 系列 的 x86 处 理 器 和 一 个 MIPS VR4181 处 
理 器 (使 用 了 刚才 的 宏 ) 上 运行 过 了 。 前 者 给 出 的 时 间 消 耗 为 11 时 钟 周期 , 后 者 仅 为 2 
个 时 钟 周 期 。 这 是 可 以 理解 的 ， 因 为 RISC 处 理 器 通常 在 每 时 钟 周期 运行 一 条 指令 。 


关于 时 间 蕉 计数 器 , 还 有 值得 一 提 的 一 点 : 在 SMP 系统 中 , 它们 不 会 在 多 个 处 理 器 间 保 
持 同 步 。 为 了 确保 获得 一 致 的 值 ， 我 们 需要 为 查询 该 计数 器 的 代码 禁止 抢占 。 


获取 当前 时 间 

内 核 一 般 通 过 jiffies 值 来 获取 当前 时 间 。 该 数值 表示 的 是 自 最 近 一 次 系统 启动 到 当 
前 的 时 间 间 隔 ， 它 和 设备 驱动 程序 无 关 ， 因 为 它 的 生命 期 只 限于 系统 的 运行 期 
(uptime )。 但 驱动 程序 可 以 利用 jiffies 的 当前 值 来 计算 不 同事 件 间 的 时 间 间 隔 ( 比 
如 在 输入 设备 驱动 程序 中 就 用 它 来 分 辨 鼠标 的 单 双击 )。 简 而 言 之 , 利用 jiffies 值 来 
测量 时 间 间 隔 在 大 多 数 情况 下 已 经 足够 了 , 如 果 还 需要 测量 更 短 的 时 间 差 , 就 只 能 使 用 
处 理 器 特定 的 寄存 器 了 (但 这 会 带 来 严重 的 兼容 性 问题 ) 。 


驱动 程序 一 般 不 需要 知道 墙 钟 时 间 ( 指 日 常 生活 使 用 的 时 间 ， 用 年 月 日 来 表达 ) ， 通 党 
只 有 像 cron 和 syslogd 这 样 用 户 程序 才 需 要 墙 钟 时 间 。 对 真实 世界 的 时 间 处 理 通常 最 好 
留 给 用 户 空间 ，C 函数 库 为 我 们 提供 了 更 好 的 支持 。 另 外 ,这 些 代码 通常 具有 更 高 的 策 
略 相关 性 ， 从 而 不 能 归于 内 核 。 但 是 ,内核 也 提供 了 将 墙 钟 时 间 转 换 为 jiffies 值 的 
函数 : 

#include <linux/time.h> 

unsigned long mktime (unsigned int year, unsigned int mon, 


unsigned int day, unsigned int hour, 
unsigned int min, unsigned int sec); 


直接 处 理 墙 钟 时 间 常 常 意味 着 正在 实现 某 种 策略 ， 因 此 ， 我 们 应 该 仔细 审视 一 下 。 


虽然 在 内 核 空间 中 我 们 不 必 处理 时 间 的 人 类 可 读 取 表 达 , 但 有 时 也 需要 处 理 绝对 时 间 戳 。 
为 此 ，<linuxitime.h> 导 出 了 do_gettimeofday 国 数 。 该 函数 用 秒 或 微 秒 值 来 填充 一 个 指 
向 struct timeval 的 指针 变量 一 一 gettimeofday 系统 调用 中 用 的 也 是 同一 变量 。 
do_gettimeofday 的 原型 如 下 : 
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#include <linux/time.h> 
void do gettimeofday (struct timeval *tv); 


此 内 核 源 代码 表明 do_gettimeofday 在 许多 体系 结构 上 有 “接近 微 秒 级 的 分 辩 率 ", 因为 
它 通过 查询 定时 硬件 而 得 出 了 已 经 流逝 在 当前 jiffies 上 的 时 间 。 但 是 , 实际 精度 是 随 平 
台 的 不 同 而 变化 的 ， 因 为 它 依 赖 于 实际 使 用 的 硬件 机 制 。 例 如 ， 某 些 m68knommu 处 理 
器 、Sun3 系统 以 及 其 他 m68k 系统 无 法 提供 高 于 jiffy 的 分 辩 率 。 另 一 方面 ，Pentium 系 
统 可 通过 读 取 本 章 前 面 描 述 的 时 间 改 计数 器 来 获得 非常 快 而 精确 的 子 滴 答 度 其 值 。 


当前 时 间 也 可 以 通过 xtime 变量 (类 型 为 struct timespec) 来 获得 , 但 精度 要 差 
一 些 。 但 是 ,我 们 并 不 鼓励 直接 使 用 该 变量 ,因为 很 难 原子 地 访问 timeval 变量 的 两 
个 成 员 。 因 此 ， 内 核 提 供 了 一 个 辅助 图 数 current_kernel_time: 


#include <linux/time.h> 
struct timespec current._kernel time (void); 


获取 当前 时 间 的 代码 可 见于 jir (“Just In Time”) 模块 中 ， 其 源 文件 可 从 O'Reilly 公司 
的 FTP 站 点 获得 。jit 模块 将 创建 /proc/currentime 文件 ， 读 取 该 文件 ,将 以 ASCII 码 的 
形式 返回 下 面 几 项 数据 : 


。 以 十 六 进 制 表达 的 jiffies 及 jiffies_64 的 当前 值 
。 ”由 do_gettimeofday 返回 的 当前 时 间 


。 ”由 current_kernel_time 返回 的 timespec 结构 值 


为 了 保持 该 示例 模块 的 代码 最 少 ， 我 们 选择 了 动态 的 /proc 文件 方式 一 一 为 了 输出 这 
几 个 不 多 的 文本 信息 ， 不 值得 创建 一 个 完整 的 设备 。 


在 装载 该 模块 之 后 , 该 文件 就 可 以 持续 地 返回 文本 行 ; 每 个 read 系 统 调用 会 收集 并 返回 
一 组 数据 ， 为 方便 阅读 ， 数 据 被 组 织 为 两 行 。 如 果 在 一 次 定时 器 滴答 内 多 次 读 取 的 话 ， 
我 们 将 看 到 do_gettimeofday 返 回 值 间 的 差异 , 因为 它 查 询 了 相关 硬件 , 而 其 他 值 只 会 在 
不 同 的 定时 器 滴答 间 发 生变 化 。 


bphong head -8 /proc/currentime 

0x00bdbclLft 0x0000000100bdbc1f 1062370899 .630126 
1062370899 .529161488 

0x00babc1f Ox0000000100bdbc1f 1062370899.630150 
1062370899.629161488 

Ox00bdbc20 0x0000000100bdbc20 1062370899.630208 
1062370899 .630161336 

Ox00bdbc20 0x0000000100babc20 1062370899 .630233 
1062370899 .630161336 


在 上 面 的 输出 中 , 有 两 个 值得 注意 的 现象 。 首先 ， 尽管 current_kernel_time 以 纳 秒 精 度 
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表示 , 但 只 有 时 钟 滴答 的 分 辨 率 ; do_getrimeofday 持 续 报 告 靠 后 的 时 间 , 但 总 不 会 晚 于 
下 一 个 定时 器 滴答 。 其 次 ，64 位 jiffies 计数 器 的 高 32 位 字 的 最 低位 被 值 一 ， 这 是 由 于 
INTIAL_JIFFIES 的 默认 值 所 致 。 在 系统 引导 期 间 ， 这 个 值 用 来 初始 化 jiffies 计数 器 ， 
这 样 , 引导 之 后 的 几 分 钟 之 内 就 会 出 现 低 32 位 字 的 溢出 , 从 而 帮助 检测 每 个 溢出 相关 的 
问题 。 计数器 上 的 这 个 初始 值 不 会 有 任何 效果 , 因为 jiffies 不 是 相对 于 墙 钟 时 间 的 。 
在 /prociuptime 中 ， 当 内 核 从 计数 器 中 抽取 运行 期 时 ， 会 减 去 该 初始 值 。 


延迟 执行 

设备 驱动 程序 经 常 需 要 将 某 些 特定 代码 延迟 一 段 时 间 后 执行 一 一 通常 是 为 了 让 硬件 能 
完成 某 些 任务 。 本 节 将 介绍 许多 实现 延迟 的 不 同 技术 , 哪 种 技术 最 好 取决 于 实际 环境 中 
的 具体 情况 。 我 们 将 介绍 所 有 的 这 些 技术 并 指出 各 自 的 优 缺 点 。 


要 考虑 的 一 件 重要 的 事情 是 : 相 比 时 钟 滴答 并 考虑 各 种 平台 上 的 HZ 值 范围 ， 我 们 是 否 
依赖 于 时 钟 滴答 来 实现 延迟 。 长 于 时 钟 滴答 的 延迟 并 且 不 会 因为 它 的 低 分 辩 率 而 导致 问 
题 , 则 可 以 使 用 系统 时 钟 ,而 非常 短 的 延迟 通常 必须 用 软件 循环 的 方式 实现 。 这 两 种 情 
形 之 间 存 在 一 个 灰色 地 带 ， 本 章 我 们 把 涉及 多 个 时 钟 滴答 的 延迟 称 为 “长 延迟 ， 在 某 
些 平 台 上 ， 这 可 能 只 有 几 个 毫秒 ， 但 对 CPU 和 内 核 来 讲 ， 仍 然 是 比较 长 的 了 。 


下 面 的 几 个 小 节 讨论 了 许多 不 同 的 延迟 方案 ， 从 直觉 但 并 不 合适 的 方案 到 正确 的 方案 。 


我 们 选择 这 种 讨论 方式 , 是 因为 它 能 更 深入 讨论 内 核 有 关 计 时 的 问题 。 如 果 读 者 急于 找 
到 正确 的 代码 ， 可 直接 跳 过 下 面 的 小 节 。 


长 延迟 
有 时， 驱动 程序 需要 延迟 比较 长 的 时 间 , 即 长 于 一 个 时 钟 滴答 。 实 现 这 种 类 型 的 延迟 有 
好 几 种 途径 ， 我 们 首先 讲述 最 简单 的 长 延迟 技术 ， 然 后 再 描述 更 高 级 一 些 的 技术 。 


忙 等待 

如 果 想 把 执行 延迟 若干 个 时 钟 滴答 , 或 者 对 延迟 的 精度 要 求 不 高 ,最 简单 (但 我 们 并 不 
推荐 ) 的 实现 方法 就 是 一 个 监视 jiffies 计数 器 的 循环 。 这 种 忙 等 待 的 实现 方法 通常 具有 
下 面 的 形式 ， 其 中 jl 是 延迟 终止 时 的 jiffies 值 : 


while (time_before(jiffies, j1)) 
cpu_relax(}); 


对 cpu_relax 的 调用 将 以 架构 相关 的 方式 执行 ， 其 中 不 执行 大 量 的 处 理 器 代码 。 在 许多 
系统 上 , 该 函数 根本 不 会 做 任何 事情 ; 而 在 对 称 多 线程 〈(“ 超 线程 ) 系统 上 ， 它 可 能 将 
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处 理 器 让 给 其 他 线程 。 但 不 论 是 哪 种 情况 , 只 要 可 能 , 我 们 都 应 该 尽量 避免 使 用 这 种 方 
式 。 我们 在 这 里 提 到 它 , 只 是 因为 读者 可 能 偶尔 需要 运行 这 段 代码 ,以便 更 好 地 理解 其 
他 的 延迟 技术 。 


还 是 先 看 看 这 段 代 码 是 如 何 工作 的 。 因 为 内 核 的 头 文件 中 jiffies 被 声明 为 volatile 
型 变量 ， 所 以 每 次 C 代码 访问 它 时 都 会 重新 读 取 它 ， 因 此 该 循环 可 以 起 到 延迟 的 作用 。 
尽管 也 是 “正确 ”的 实现 , 但 这 个 忙 等 待 循环 会 严重 降低 系统 性 能 。 如 果 我 们 并 没有 将 
内 核 配置 为 抢占 型 的 , 那么 这 个 循环 将 在 延迟 期 间 整 个 锁 住 处 理 器 , 而 调度 器 从 来 不 会 
抢占 运行 在 内 核 空间 中 的 进程 ， 这 样 ， 在 j1 所 代表 的 时 间 到 来 之 前 ， 计 算 机 看 起 来 就 
是 死 掉 的 。 如 果 我 们 正在 运行 抢占 式 内 核 , 则 问题 不 会 有 这 么 严重 ， 这 是 因为 ， 除 非 代 
码 拥 有 一 个 锁 , 否则 处 理 器 的 时 间 还 可 以 用 作 他 用 。 但 是 在 抢占 式 系统 中 , 忙 等 待 仍然 
有 些 浪 费 。 


更 精 糕 的 是 ， 如 果 在 进入 循环 之 前 正好 禁止 了 中 断 ，jiffies 值 就 不 会 得 到 更 新 ， 那 
么 while 循 环 的 条 件 就 永远 为 真 , 这 时 , 你 不 得 不 按 下 那 只 大 的 红 按钮 ( 指 电源 按钮 )。 


这 种 延迟 和 下 面 的 几 种 延迟 方法 都 在 闷 模块 中 实现 了 。 由 该 模块 创建 的 所 有 /proc/liir* 
文件 每 次 被 读 取 一 行文 本 (每 行 20 字 节 ) 时 都 会 延迟 整整 1 秒 。 如 果 读 者 想 测试 忙 等 待 
代码 , 就 可 以 读 取 /proc/jitbusy 文 件 ， 它 在 返回 每 一 行文 本 时 都 会 进入 忙 等 待 循环 并 延 
壕 1 秒 。 





警告 : 请 确保 每 次 从 /proc/jitbusy 中 读 取 至 多 一 行 ( 或 几 行 )。 用 来 注册 /proc 文件 的 简化 内 核 机 
制 会 反复 调用 read 方 法 , 以 填充 用 户 请 求 的 数据 缓冲 区 。 因 此 ,类似 catiprocljitbusy 这 样 
的 命令 如 果 每 次 读 取 4KB， 则 会 将 计算 机 冻结 205 秒 。 





读 取 /procljitbusy 的 推荐 命令 是 dd bs=20 < /procljitbusy， 同时 可 以 随意 指定 要 读 取 的 
数据 块 大 小 。 该 文件 返回 每 行 有 20 字 节 的 数据 , 它 表示 了 延迟 开始 之 前 及 之 后 的 jiffies 
计数 器 值 。 下 面 是 上 述 命令 在 某 台 低 负荷 计算 机 上 的 运行 示例 : 
phon® dd bs=20 count=5 < /proc/jitbusy 

1686518 1687518 

1687519 1688519 

1688520 1689520 

1689520 1690520 

1690521 1691521 
结果 看 起 来 很 好 : 每 个 延迟 都 恰好 是 一 秒 (1000 个 jiffies)， 而 下 一 个 read 系统 调用 会 
在 前 一 个 结束 之 后 立即 执行 。 但 是 ,如 果 我 们 在 运行 有 大 量 CPU 密集 型 进程 的 系统 ( 非 
抢占 式 内 核 ) 上 运行 时 ， 会 看 到 下 面 的 输出 : 


phon% dd bs=20 count*=5 < /proc/jitbusy 
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1911226 1912226 
1913323 1914323 
1919529 1920529 
1925632 1926632 
1931835 1932835 


我 们 可 以 看 到 ， 每 个 read 系统 调用 会 恰好 延迟 1 秒 ， 但 内 核 在 调度 dd 进程 执行 下 一 个 
系统 调用 前 可 能 要 花费 5 秒 的 时 间 。 对 多 任务 系统 来 讲 , 这 种 现象 是 正常 , 因为 CPU 时 
间 在 所 有 运行 的 进程 间 共 享 , 而 CPU 密集 型 进程 具有 动态 降低 的 优先 级 ( 对 调度 策略 的 
讨论 已 超出 本 书 范围 )。 


上 面 在 高 负荷 系统 中 的 测试 是 运行 load50 示例 程序 时 得 到 的 。 这 个 程序 会 fork 大 量 进 
程 ,这些 进程 不 做 任何 有 效 的 事情 但 却 大 量 消耗 CPU 资 源 。 该 程序 是 本 书 示 例文 件 的 一 
部 分 , 默认 会 fork 50 个 进程 ,当然 ,有 具体 的 数字 也 可 以 通过 命令 行 指定 。 在 本 章 中 , 其 
至 是 本 书 的 其 他 地 方 , 对 高 负荷 系统 的 测试 均 是 在 相对 空闲 的 计算 机 上 运行 /oad50 来 完 
成 的 。 


如 果 在 运行 抢占 式 内 核 的 高 负荷 系统 上 重复 运行 上 面 的 命令 , 则 会 发 现 , 和 空 闪 CPU 系 
统 相 比 看 不 出 任何 大 的 区 别 ， 如 下 所 示 : 
phon% da bs=20 count=5 < /proc/jitbusy 
14940680 14942777 
14942778 14945430 
14945431 14948491 


14948492 14951960 
14951961 14955840 


我 们 发 现 , 在 两 次 系统 调用 之 间 没 有 很 大 的 延迟 , 但 是 单个 延迟 却 可 能 长 于 1 秒 , 其 至 
在 上 面 的 例子 中 达到 3.8 秒 , 而 且 会 随时 间 的 流逝 而 增加 。 这 表明 进程 在 其 延迟 过 程 中 
被 中 断 ， 系统 调度 了 其 他 进程 。 系统 调 用 之 间 的 空隙 并 不 是 调度 该 进程 的 唯一 选择 , 因 
此 我 们 没有 看 到 系统 调用 之 间 出 现 特别 延迟 .。 


让 出 处 理 器 
我 们 已 经 看 到 , 忙 等 待 为 系统 整体 增加 了 沉重 的 负担 ,因此 有 必要 寻找 更 好 的 延迟 技术 。 
我 们 能 想到 的 一 种 手段 是 ， 在 不 需要 CPU 时 主动 释放 CPU。 这 可 以 通过 调用 schedule 
国 数 实现 ， 该 国 数 在 <linux/sched.h> 中 声明 : 

while (time before(jiffies, j1)) { 

schedule(); 

} 
上 面 这 个 循环 可 通过 读 取 /proc/jitsched 文 件 来 测试 , 其 过 程 和 前 面 读 取 /proc/jitbusy 一 
样 。 但 是 , 这 仍然 不 是 优化 的 技术 。 当 前 进程 虽然 释放 了 CPU 而 不 做 任何 事情 , 但 它 仍 
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然 在 运行 队列 中 。 如 果 系 统 中 只 有 一 个 可 运行 的 进程 , 则 该 进程 又 会 立即 运行 ( 它 调用 
了 调度 器 ， 而 调度 器 选择 了 同一 个 进程 ， 这 个 进程 又 调用 调度 器 …… )。 换 句 话 说 ， 机 
器 的 负荷 (运行 进程 的 平均 数 ) 至 少 为 一 , 而 空 (idle) 任务 (进程 号 为 0， 也 因 历 史 
原因 称 为 swapper) 从 来 不 会 运行 。 尽管 这 个 问题 看 起 来 似乎 无 关 痛 痒 ， 但 是 ， 在 计算 
机 空闲 时 运行 空 闪 任务 可 减轻 处 理 器 负荷、 降低 处 理 器 温度 并 增加 它 的 寿命 , 如 果 计 算 
机 是 一 台 笔记 本 电脑 , 这 种 效果 对 笔记 本 电脑 的 电池 也 是 一 样 的 。 此 外 , 因为 该 进程 在 
延迟 期 间 真正 在 运行 ， 因 此 它 要 对 它 消耗 的 所 有 时 间 负 责 。 


在 抢占 式 内 核 上 , /proc/jitsched 的 行为 和 /procljitbusy 的 行为 非常 相似 。 在 低 负 荷 系统 
上 ， 运 行 效 果 如 下 所 示 : 
phon% dd bs=20 count=5 < /proc/jitsched 
1760205 1761207 
1761209 1762211 
1762212 1763212 


1763213 1764213 
1764214 1765217 


我 们 可 以 注意 到 , read 系 统 调用 的 实际 延迟 有 时 要 比 所 请 求 的 长 几 个 时 钟 滴 答 。 当 系统 
越 来 越 忙 时 ,这 个 问题 会 越 来 越 突出 , 最终 会 导致 哎 动 程序 等 待 更 长 的 时 间 。 当 一 个 进 
程 使 用 schedule 释放 处 理 器 之 后 ,没有 任何 保证 说 进程 可 以 在 随后 很 快 就 得 到 处 理 器 。 
因此 , 除了 影响 计算 系统 的 整体 性 能 之 外 , 上 面 这 种 调用 schedule 的 方法 对 驱动 程序 需 
求 来 讲 并 不 安全 。 如 果 在 测试 jitseched 的 同时 运行 1oad50, 读者 将 看 到 每 行 的 延迟 可 能 
达到 好 几 秒 ， 这 是 因为 在 延迟 到 期 时 其 他 进程 正在 使 用 CPU。 


超时 

到 目前 为 止 , 通过 监视 jiffies 计数 器 实现 的 延迟 循环 可 以 工作 , 但 不 是 非常 理想 。 读 者 
可 能 想到 , 实现 延迟 的 最 好 方法 应 该 是 让 内 核 为 我 们 完成 相应 工作 。 存在 两 种 构造 基于 
jiffies 超时 的 途径 ， 使 用 哪个 则 依赖 于 驱动 程序 是 否 在 等 待 其 他 事件 。 


如 果 上 驱动 程序 使 用 等 待 队列 来 等 待 其 他 一 些 事件 ,而 我 们 同时 希望 在 特定 时 间 段 中 运行 ， 
则 可 以 使 用 wait_event_timeout 或 者 wait_event_interruptible_timeout 国 数 : 

#include <linux/wait.h> 

long wait_event_timeout (wait_queue. head t q, condition, long timeout); 


long wait_event_interruptible_timeout (wait_queue_head t q, 
condition, long timeout}; 


上 述 函 数 会 在 给 定 的 等 待 队列 上 休 卢 , 但 是 会 在 超时 (用 jiffies 表示 ) 到 期 时 返回 。 这 
样 , 这 两 个 函数 实现 了 一 种 有 界 的 休眠 , 这 种 休眠 不 会 永远 继续 。 注意 , 这 里 的 timeout 
值 表示 的 是 要 等 待 的 jiffies 值 , 而 不 是 绝对 时 间 值 。 这 个 值 用 有 符号 数 表示 ， 因 为 有 些 
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情况 下 它 是 相 减 的 结果 。 当 提供 的 超时 值 是 负数 时 , 这 两 个 函数 会 通过 一 条 printk 语 句 
产生 抱怨 人 信息。 如果 超时 到 期 , 这 两 个 函数 会 返回 零 ; 而 如 果 进 程 由 其 他 事件 唤醒 ， 则 
会 返回 剩余 的 延迟 实现 ， 并 用 jiffies 表 达 。 返 回 值 从 来 不 会 是 负数 ,即使 因为 系统 负荷 
而 导致 真正 的 延迟 时 间 超 过 预期 。 


/procljitqueue 文件 演示 了 基于 wait_event_interruptible_timeout 函数 实现 的 延迟 。 因 为 
这 个 模块 并 没有 需要 等 待 的 事件 ， 因 此 传人 的 条 件 (condition) 是 人 0: 
wait_queue_head t wait; 


init_waitqueue_head (&wait); 
wait_event_interruptible_timeout {wait, 0, delay}); 


很 据 观 测 结 果 ， 就 算 在 高 负荷 系统 上 ， 对 /procijitqueue 的 读 取 也 将 得 到 接近 优化 的 结 
果 : 
phon% dd bs=20 count=5 < /proc/jitqueue 
2027024 2028024 
2028025 2029025 
2029026 2030026 


2030027 2031027 
2031028 2032028 


因为 读 取 进 程 (上 面 的 dd) 在 等 待 超时 的 时 候 并 不 在 运行 队列 中 , 因此 无 论 是 否 在 抢占 
式 内 核 上 运行 上 述 代码 ， 我 们 看 不 到 任何 区 别 。 


在 某 个 硬件 驱动 程序 中 使 用 wait_event_timeout 和 wait_event_interruptible_timeout 时 ， 
执行 的 继续 可 通过 下 面 两 种 方式 获得 : 其 他 人 在 等 待 队列 上 调用 了 wake_up，, 或 者 超时 
到 期 。 但 这 不 适用 于 jitqueue， 因 为 没有 人 会 在 等 待 队 列 上 调用 wake_up (毕竟 没有 其 
他 代码 知道 这 个 等 待 队列 )， 因 此 ， 进 程 始终 会 在 超时 到 期 时 被 唤醒 。 为 了 适应 这 种 特 
殊 情况 ( 即 不 等 待 特定 事件 而 延迟 )， 内 核 为 我 们 提供 了 schedule_timeout 函数 ,这样 ， 
我 们 可 避免 声明 和 使 用 多 余 的 等 待 队列 头 ; 

#include <linux/sched.h> 

signed long schedule_timeout {signed long timeout)}; 
这 里 , timeout 是 用 jiffies 表 示 的 延迟 时 间 。 正 常 的 返回 值 是 0, 除非 在 给 定 超时 值 到 
期 前 函数 返回 (比如 响应 某 个 信号 )。 schedule_rimeout 要 求 调用 者 首先 设置 当前 进程 的 
状态 ， 因 此 ， 典 型 的 调用 代码 如 下 所 示 : 

set_current_state(TASK_INTERRUPTIBLE); 

schedule_timeout (delay); 
上 面 的 两 行 语句 (来 自 /proc/jitschedto) 将 使 进程 在 给 定时 间 内 休眠。 因为 
wait_event_interruptible_timeout 在 内 部 依赖 于 schedule_timeout 孙 数 ， 则 jitschedto 返 
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回 的 数值 会 和 jiigueue 一样 , 因此 我 们 不 打算 给 出 jitschedio 的 输出 。 但 是 , 值得 再 次 指 
出 的 是 ， 在 超时 到 期 和 进程 被 真正 调度 执行 之 间 ， 需 要 额外 的 时 间 。 


在 上 面 的 示例 中 、 第 一 行 调用 set_current_state 以 设置 当前 进程 的 状态 ， 这 样 ， 调 度 器 
只 会 在 超时 到 期 且 其 状态 变 成 TASK_RUNNING 时 才 会 运行 这 个 进程 。 如 果 要 实现 不 可 
中 断 的 延迟 , 可 使 用 TASK_UNINTERRUPTIBLE。 如 果 我 们 忘记 改变 当前 进程 的 状态 , 则 
对 schedule_timeout 的 调用 和 对 schedule 的 调用 一 样 ( 即 jirsched 那样 )， 内 核 为 我 们 构 
造 的 定时 器 就 不 会 真正 起 作用 。 


如 果 读 者 打算 在 不 同 的 系统 情况 下 或 者 不 同 的 内 核 上 ,以 不 同 的 延迟 执行 方式 测试 上 述 
四 个 jit 文 件 ， 那 么 可 以 在 装载 模块 时 通过 设置 延迟 模块 的 参数 来 配置 具体 的 延 姑 时 间 
值 。 


短 延 迟 


当 设 备 驱动 程序 需要 处 理 硬件 的 延迟 (latency) 时 , 这 种 延迟 通常 最 多 涉及 到 几 十 个 毫 
秒 。 在 这 种 情况 下 ， 依 赖 于 时 钟 滴答 显然 不 是 正确 的 方法 。 


ndelay、udelay 和 mdelay 这 几 个 内 核 函数 可 很 好 完成 短 延迟 任务 , 它们 分 别 延迟 指定 数 
量 的 纳 秒 、 微 秒 和 毫秒 时 间 ( 注 2)。 它 们 的 原型 如 下 : 

#include <linux/delay.h> 

void ndelay (unsigned long nsecs); 

void udelay (unsigned long usecs); 

void mdelay (unsigned long msecs); 
这 些 函 数 的 实际 实现 包含 在 <asm/delay.h> 中 ， 其 实现 和 具体 的 体系 架构 相关 ， 有 时 构 
建 于 一 个 外 部 函数 。 所 有 的 体系 架构 都 会 实现 udely, 但 其 他 函数 可 能 未 被 定义 ; 如 果 存 
在 没有 真正 定义 的 函数 ， 则 <linux/delay.h> 会 在 udelay 的 基础 上 提供 一 个 默认 的 版 本 。 
不 管 哪 种 情况 , 真正 实现 的 延迟 至 少 会 达到 所 请 求 的 时 间 值 , 但 可 能 更 长 ; 实际 上 , 当 
前 所 有 平台 都 无 法 达到 纳 秒 精度 , 但 有 些 平台 提供 了 子 微 秒 精度 。 延迟 超过 请 求 的 值 通 
常 不 是 问题 , 因为 驱动 程序 的 短 延迟 通常 等 待 的 是 硬件 , 而 需求 往往 是 至 少 要 等 待 给 定 
的 时 间 段 。 


udelay (以 及 可 能 的 ndelay) 的 实现 使 用 了 软件 循环 ， 它 根据 引导 期 间 计算 出 的 处 理 器 
速度 以 及 loops_pre_jiffy 整 数 变量 确定 循环 的 次 数 。 如 果 读 者 要 阅读 实际 的 代码 ， 
要 注意 x86 平 台 上 的 实现 相当 复杂 , 这 是 因为 , 它 使 用 了 不 同 的 定时 源 ， 而 这 取决 于 运 
行 代码 的 CPU 类 型 。 





注 2: udelay 中 的 u 表示 希 腊 字 母 “mu(h)”， 它 代表 “ 微 (micro)”。 
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为 避免 循 坏 计 算 中 的 整数 溢出 ,xdeley 和 Adelay 为 传递 给 它们 的 值 强加 了 上 限 。 如 果 模 
块 无 法 装载 ， 并 显示 未 解析 的 符号 __bad_udelay， 则 说 明 模 块 在 调用 udelay 时 传人 了 
大大 的 值 。 但 需要 注意 的 是 , 这 种 编译 时 的 检查 只 能 在 常量 值 上 进行 , 而 且 并 不 是 所 有 
的 平台 都 实现 了 这 种 检查 。 作 为 一 般 性 的 规则 、 如 果 我 们 打算 延迟 上 千 个 纳 秒 ， 则 应 该 
使 用 udelay 而 不 是 ndelay; 类 似 地 ， 毫 秒 级 的 延迟 出 应 该 利用 mdelay 而 不 是 更 细 粒 度 
的 短 延 迟 函 数 。 


要 重点 记 住 的 是 , 这 三 个 延迟 函数 均 是 位 等 待 函数 , 因而 在 延迟 过 程 中 无 法 运行 其 他 任 
务 。 这 样 ， 这些 函数 将 重复 jitbusy 的 行为 ,只 是 在 不 同 的 量 级 上 。 因 此 ,我 们 应 该 只 在 
没有 其 他 实用 方法 时 使 用 这 些 函 数 。 


实现 毫秒 级 (或 者 更 长 ) 延迟 还 有 另 一 种 方法 , 这 种 方法 不 涉及 忙 等 待 。<linux/delay.h> 
文件 声明 了 下 面 这 些 函 数 : 

void msleep (unsigned int millisecs); 

unsigned long msleep_interruptible{unsigned int millisecs); 

void ssleep(unsigned int seconds) 
前 两 个 函数 将 调用 进程 休眠 以 给 定 的 millisecs。 对 msieep 的 调用 是 不 可 中 断 的 ;我 们 
可 以 确信 进程 将 至 少 休眠 给 定 的 毫秒 数 。 如 果 驱 动 程序 正在 某 个 等 待 队列 上 等 待 , 而 又 
希望 有 唤醒 能 够 打 断 这 个 等 待 的 话 ， 则 可 使 用 mslieep_interruptible。 
msleep_interruptible 的 返回 值 通常 是 零 ; 但 是 ,如 果 进 程 被 提前 唤醒 , 那么 返回 值 就 是 
原先 请 求 休 眠 时 间 的 剩余 毫秒 数 。 对 ssieep 的 调用 将 使 进程 进入 不 可 中 断 的 休眠 , 但 休 
眠 时 间 以 秒 计 。 


通常 ， 如 果 我 们 能 够 容忍 比 所 请 求 更 长 的 延迟 ， 则 应 当 使 用 chedule_rtimeout、sieep 或 
者 ssleep。 


内 核定 时 器 


如 果 我 们 需要 在 将 来 的 某 个 时 间 点 调度 执行 某 个 动作 ,同时 在 该 时 间 点 到 达 之 前 不 会 阻 
寨 当前 进程 , 则 可 以 使 用 内 核定 时 器 。 内 核定 时 器 可 用 来 在 未 来 的 某 个 特定 时 间 点 〈 基 
于 时 钟 滴答 ) 调度 执行 某 个 函数 ， 从 而 可 用 于 完成 许多 任务 ; 例如 ,如果 硬件 无 法 产生 
中 断 ， 则 可 以 周期 性 地 轮 询 设 备 状 态 。 另 一 个 内 核定 时 器 的 典型 应 用 是 关闭 软驱 马达 ， 
或 者 结束 其 他 长 时 间 的 关闭 操作 。 在 这 种 情况 下 ， 在 close 方 法 返回 前 进行 延迟 将 会 给 
应 用 程序 带 来 不 必要 的 (甚至 令 人 惊讶 的 ) 开销 。 最 后 ,内 核 本 身 也 在 许多 情况 下 使 用 
了 定时 器 ， 包 括 在 schedule_timeout 的 实现 中 。 


一 个 内 核定 时 器 是 一 个 数据 结构 , 它 告诉 内 核 在 用 户 定义 的 时 间 点 使 用 用 户 定义 的 参数 
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来 执行 一 个 用 户 定义 的 函数 。 其 实现 位 于 <linux/timer.h> 和 kernelitimer.c 文 件 , 我 们 将 
在 “内 核定 时 器 的 实现 ”一 节 中 对 此 进行 详细 描述 。 


被 调度 运行 的 函数 几乎 肯定 不 会 在 注册 这 些 函数 的 进程 正在 执行 时 运行 。 相反 ,这些 函 
数 会 异步 地 运行 。 到 此 为 止 , 我 们 提供 的 示例 驱动 程序 代码 都 在 进程 执行 系统 调用 的 上 
下 文中 运行 。 但是， 当 定时 器 运行 时 ,调度 该 定时 器 的 进程 可 能 正在 休 眼 或 在 其 他 处 理 
器 上 执行 ， 或 干脆 已 经 退出 。 


这 种 异步 执行 类 似 于 硬件 中 断 发 生 时 的 情景 〈 我 们 会 在 第 十 章 详细 讨论 )。 实 际 上 ， 内 
核定 时 器 常常 是 作为 “软件 中 断 ” 的 结果 而 运行 的 。 在 这 种 原子 性 的 上 下 文中 运行 时 ， 
代码 会 受到 许多 限制 。 定时 器 函数 必须 以 我 们 在 第 五 章 “ 自 旋 锁 和 原子 上 下 文 ”一 节 中 
讨论 的 方式 原子 地 运行 , 但 是 这 种 非 进 程 上 下 文 还 带 来 其 他 一 些 问题 ,。 现在 我 们 要 讨论 
这 些 限制 , 这 些 限制 还 会 在 本 书后 面 多 次 出 现 。 我 们 也 会 对 此 多 次 重复 , 原子 上 下 文中 
的 这 些 规则 必须 遵守 ， 否 则 会 导致 大 麻烦 。 


许多 动作 需要 在 进程 上 下 文中 才能 执行 。 如 果 处 于 进程 上 下 文 之 外 (比如 在 中 断 上 下 文 
中 )， 则 必须 遵守 如 下 规则 : 


。 ”不 允许 访问 用 户 空间 ,因为 没有 进程 上 下 文 ,无 法 将 任何 特定 进程 与 用 户 空间 关联 
起 来 。 

。 ”current 指针 在 原子 模式 下 是 没有 任何 意义 的 ,也是 不 可 用 的 , 因为 相关 代码 和 
被 中 断 的 进程 没有 任何 关联 。 


。 ”不 能 执行 休眠 或 调度 。 原子 代码 不 可 以 调用 schedule 或 者 wait_event, 也 不 能 调用 
任何 可 能 引起 休眠 的 函数 。 例 如 ， 调 用 kmalloct(.….,GFP_KERNEL) 就 不 符合 本 规 
则 。 信 号 量 也 不 能 用 ， 因 为 可 能 引起 休眠 。 


内 核 代码 可 以 通过 调用 函数 in_interrupt() 来 判断 自己 是 否 正 运行 于 中 断 上 下 文 , 该 函数 
无 需 参数 , 如 果 处 理 器 运行 在 中 断 上 下 文 就 返回 非 零 值 , 而 无 论 是 硬件 中 断 还 是 软件 中 
断 。 


和 in_interrupt() 相 关 的 函数 是 in_atomic()。 当 调度 不 被 允许 时 , 后 者 的 返回 值 也 是 非 零 
值 ; 调度 不 被 允许 的 情况 包括 硬件 和 软件 中 断 上 下 文 以 及 拥有 自 旋 锁 的 任何 时 间 点 。 在 
后 一 种 情况 下 , current 是 可 用 的 , 但 禁止 访问 用 户 空间 ,因为 这 会 导致 调度 的 发 生 。 
不 管 何 时 使 用 in_interrupt(), 都 应 考虑 是 否 真 正 该 使 用 的 是 in_atomic()。 这 两 个 函数 均 
在 <asmihardirqg.h> 中 声明 。 


内 核定 时 器 的 另 一 个 重要 特性 是 , 任务 可 以 将 自己 注册 以 在 稍 后 的 时 间 重 新 运行 。 这 种 
可 能 性 是 因为 每 个 timer_1ist 结构 都 会 在 运行 之 前 从 活动 定时 器 链表 中 移 走 ， 这 样 
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就 可 以 立即 链 入 其 他 的 链表 。 尽 管 多 次 调度 同一 任务 似乎 是 一 件 没 有 多 大 意义 的 操作 ， 
但 有 时 还 是 很 有 用 的 。 例 如 ， 这 种 技术 可 在 轮 询 设备 时 使 用 。 


另外 一 个 值得 了 解 的 是 ， 在 SMP 系统 中 ,定时 器 函数 会 由 注册 它 的 同一 CPU 执行 ， 这 
样 可 以 尽 可 能 获得 缓存 的 局 域 性 (locality )。 因 此 ， 一 个 注册 自己 的 定时 器 始终 会 在 同 
一 CPU 上 运行 。 


关于 定时 器 , 还 有 一 个 要 谨 记 的 重要 特性 : 即使 在 单 处 理 器 系统 上 , 定时 器 也 会 是 竞 态 
的 潜在 来 源 。 这 是 由 其 异步 执行 的 特点 直接 导致 的 。 因此 , 任何 通过 定时 器 函数 访问 的 
数据 结构 都 应 该 针对 并 发 访问 进行 保护 ,可 以 使 用 第 五 章 “ 原 子 变量 ”一 节 中 讨论 过 的 
原子 类 型 ， 或 者 使 用 第 五 章 中 讨论 过 的 自 旋 锁 。 


定时 器 API 


内 核 为 驱动 程序 提供 了 一 组 用 来 声明 、 注册 和 删除 内 核定 时 器 的 函数 。 下面 摘录 了 一 些 
基本 的 接口 : 
#include <1inux/Atimezr ,h> 
struct timer_list { 
pf 
unsigned long expires; 
void {*function) {unsigned long); 


unsigned long data; 
}; 


void init_ timer{(struct timer_list *timer); 
struct timer list TIMER_INITIALIZER(_function, _expires, _data),; 


void add timer{struct timer. list * timer); 
int del timer{struct timer_list * timer); 


上 面 给 出 的 数据 结构 其 实 包含 其 他 一 些 未 列 出 的 字段 ,但 给 出 的 三 个 字段 是 可 由 定时 器 
代码 以 外 的 代码 访问 。expires 字段 表示 期 望 定时 器 执行 的 jiffies 值 ; 到 达 该 
jiffies 值 时 ， 将 调用 junction 函数 ， 并 传递 aata 作为 参数 。 如 果 需 要 通过 这 个 参数 
传递 多 个 数据 项 , 那么 可 以 将 这 些 数 据 项 捆绑 成 一 个 数据 结构 , 然后 将 该 数据 结构 的 指 
针 强 制 转换 成 unsigneda long 传 人 。 这 种 技巧 在 所 有 内 核 支持 的 体系 架构 上 都 是 安全 
的 ， 而 且 在 内 存 管理 (参见 第 十 五 章 的 讨论 ) 中 非常 常见 。e xpires 的 值 并 不 是 
jiffies_64 项 , 这 是 因为 定时 器 并 不 适用 于 长 的 未 来 时 间 点 , 而 且 32 位 平台 上 的 64 位 
操作 会 比较 慢 。 


该 结构 在 使 用 前 必须 初始 化 。 初 始 化 步 嗓 可 确保 所 有 的 字段 被 正确 设置 , 包括 那些 对 调 
用 者 不 可 见 的 字段 。 通 过 调用 inir_limrer 或 者 将 TIMER_INITIRALIZER 财 予 某 个 静态 的 结 
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构 , 即 可 完成 初始 化 ,使 用 哪个 方法 取决 于 我 们 自己 的 需求 。 在 初始 化 之 后 ,可 在 调用 
add_timer 之 前 修改 上 面 讲 到 的 三 个 公共 字段 。 如 果 要 在 定时 器 到 期 前 禁止 一 个 已 注册 
的 定时 器 ， 则 可 以 调用 del_timer 函数 。 


站 模块 包含 一 个 示例 文件 ， 即 /procijitimer (表示 “just in timer”) ， 该 文件 返回 一 个 标 
题 行 以 及 6 个 数据 行 。 数 据 行 表示 的 是 代码 运行 时 的 当前 环境 ; 第 一 行 由 read 文 件 操作 
生成 ， 而 其 他 的 行 由 定时 器 生成 。 下 面 的 输出 是 正在 编译 内 核 时 得 到 的 : 


Phongs cat /proc/jitimer 


time delta inirqg pid cpu _ commandQ 
33565837 0 0 1269 0 cat 
33565847 10 1 1271 0 sh 
33565857 10 1 2:73 0 cpp0 
33565867 10 1 1273 0 cpp0 
33565877 10 1 1274 oeet 
33565887 10 1 1274 0 eel 


在 上 面 的 输出 中 ，time 字段 是 代码 运行 时 的 jiffies 值 ,aelta 是 自前 一 行 以 来 
jiffies 的 变化 值 ，inirq 是 由 in_interrupt 返 回 的 布尔 值 , pid 和 command 表 示 当 前 
进程 ,而 cpu 是 正在 使 用 的 CPU 编号 (在 单 处 理 器 系统 上 始终 为 0)。 


如 果 在 系统 低 负荷 时 读 取 /procljitimer， 将 发 现 定时 器 的 上 下 文 会 是 进程 0， 即 空闲 任 
务 ， 该 任务 因 历 史 原 因而 被 称 为 “swapper”。 


用 来 生成 /procWirimer 数 据 的 定时 器 默认 情况 下 每 10 个 jiffies 运行 一 次 , 但 读者 可 在 装 
载 该 模块 时 通过 设置 tdelay (timer delay ， 定 时 器 延迟 ) 参数 来 修改 这 个 值 。 


下 面 是 jit 模块 中 和 jitimer 定时 器 相关 的 代码 。 当 菜 个 进程 试图 读 取 /procljitimer 文件 
时 ， 设 置 定时 器 如 下 : 


unsigned long j = jiffies; 


/* 为 定时 器 函数 填充 数据 */ 
data->prevjiffies = j; 
data->buf = buf2; 

data->loops = JIT_ASYNC_LOOPS; 


/* register the timer */ 

data~->timer.data = (unsigned long})data; 
data->timer.function = jit_timer_ fn; 
data->timer .expires = j + tdelay; /* 参数 */ 
add_timer (gdata->timer); 


/* 等 待 缓冲 区 以 填充 */ 


wait_event_interruptible(data->wait, !data->loops); 


实际 的 定时 器 函数 如 下 : 








200 第 七 章 
void jit_timer_ fn(unsigned long arg) 
{ 
struct jit_data *data = (struct jit_ data *)arg; 
unsigned long j = jiffies; 
data->buf += sprintf (data~->buf, "$%9]i %31i 六 S61 名 土 Ss\n", 
j, jij - data->prevjiffies, in interrupt() ? 1 : 0， 
current->pid, smp_processor_id{}, current->comm); 
if {(--data->loops) { 


data->timer.expires += tdelay; 
data->prevjiffies = j; 
add_timer (&kdata->timer); 
} else { 
wake_up_interruptible(&data->wait); 
} 
} 


除了 上 面 给 出 和 的 销 数 及 接 日 以 外 ,内 核定 时 器 API 还 包括 其 他 几 个 函数 。 下面 给 出 这 些 
函数 的 完整 描述 : 


int 


int 


int 


mod timer (struct timer_list *timer, unsigned long expires); 
更 新 某 个 定时 器 的 到 期 时 间 , 经 常用 于 超时 定时 器 (典型 的 例子 是 软驱 的 关 马 达 定 
财 器 )。 我 们 也 可 以 在 通常 使 用 add_timer 的 时 候 在 不 活动 的 定时 器 上 调用 


mod_timer. 


del timer_sync(struct timer_list *timer); 

和 del_timer 的 工作 类 似 , 但 该 函数 可 确保 在 返回 时 没有 任何 CPU 在 运行 定时 器 函 
数 。del_timer_sync 可 用 于 在 SMP 系统 上 避免 竟 态 ， 这 和 单 处 理 器 内 核 中 的 
del_timer 是 一 样 的 。 在 大 多 数 情况 下 ,应 优先 考虑 调用 这 个 函数 而 不 是 del_timer 
函数 。 如 果 从 非 原子 上 下 文 调用 ,该 函数 可 能 休眠 ,但 在 其 他 情况 下 会 进入 忙 等 待 。 
在 拥有 锁 时 , 应 格外 小 心 调用 del_timer_sync， 因 为 如 果 定 时 器 函数 企图 获取 相同 
的 锁 , 系统 就 会 进入 死 锁 。 如 果 定时 器 函数 会 重新 注册 自己 , 则 调用 者 必须 首先 确 
保 不 会 发 生 重 新 注册 ; 这 通常 通过 设置 一 个 由 定时 器 函数 检查 的 “关闭 ”标志 来 实 
现 。 

timer_pending (const struct timer_list * timer); 

该 函数 通过 读 取 timer_1ist 结 构 的 一 个 不 可 见 字段 来 返回 定时 器 是 否 正在 被 调 
度 运行 。 


内 核定 时 器 的 实现 


尽管 要 使 用 内 核定 时 器 并 不 必 知 道 它们 的 具体 实现 , 但 其 实现 非常 有 意思 , 而 了 解 其 内 
部 也 是 值得 的 。 
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内 核定 时 器 的 实现 要 满足 如 下 需求 及 假定 : 


。 ”定时 器 的 管理 必须 尽 可 能 做 到 轻 量 级 。 

。 ”其 设计 必须 在 活动 定时 器 大 量 增加 时 具有 很 好 的 伸缩 性 。 

。 ”大 部 分 定时 器 会 在 最 多 几 秒 或 者 几 分 钟 内 到 期 ， 而 很 少 存 在 长 期 延迟 的 定时 器 。 
。 ”定时 器 应 该 在 注册 它 的 同一 CPU 上 运行 。 


内 核 开发 者 使 用 的 解决 方案 是 利用 per-CPU 数据 结构 。timer_list 结 构 的 base 字 段 包 含 
了 指向 该 结构 的 指针 。 如 果 base 为 NULL， 定 时 器 尚未 调度 运行 ; 否则 ， 该 指针 会 告 
诉 我 们 哪个 数据 结构 (也 就 是 哪个 CPU ) 在 运行 定时 器 。Per-CPU 数据 项 在 第 八 章 的 
“Per-CPU 变量 ”一 节 中 描述 。 


不 管 何 时 内 核 代码 注册 了 一 个 定时 器 (通过 add_tiemr 或 者 mod_timer), 其 操作 最 终 会 
由 internal_add_timer (定义 在 kernel/timer.c 中 ) 执行 ， 该 函数 又 会 将 新 的 定时 器 
添加 到 和 当前 CPU 关联 的 “级 联 表 ” 中 的 定时 器 双向 链表 中 。 


级 联 表 的 工作 方式 如 下 : 如 果 定 时 器 在 接 下 来 的 0 ~ 255 个 jiffies 中 到 期 , 则 该 定时 器 就 
会 被 添加 到 256 个 链表 中 的 一 个 (这 取决 于 expires 字段 的 低 8 位 值 ), 这 些 链 表 专 用 
于 短期 定时 器 。 如 果 定 时 器 会 在 较 远 的 未 来 到 期 (但 在 16384 个 jiffies 之 前 ), 则 该 定时 
器 会 被 添加 到 64 个 链表 之 一 (这 取决 于 expires 字段 的 9~ 14 位 )。 对 更 远 将 来 的 定 
时 器 ， 相 同 的 技巧 用 于 15 ~ 20 位 、21 ~ 26 位 以 及 27 ~ 31 位。 如 果 定 时 器 的 expires 
字段 代表 了 更 远 的 未 来 (只 可 能 发 生 在 64 位 系统 上 )， 则 利用 延迟 值 0xfffffft 做 散 
列 (hash) 运算 , 而 在 过 去 时 间 内 到 期 的 定时 器 会 在 下 一 个 定时 器 滴答 时 被 调度 (在 高 
负荷 的 情况 下 ， 有 可 能 注册 一 个 已 经 到 期 的 定时 器 ， 尤 其 在 运行 抢占 式 内 核 时 )。 


当 __run_timers 被 激发 时 ， 它 会 执行 当前 定时 器 滴答 上 的 所 有 挂 起 的 定时 器 。 如 果 
jiffies 当 前 是 256 的 倍数 , 该 函数 还 会 将 下 一 级 定时 器 链表 重新 散 列 到 256 个 短期 链 
表 中 ， 同 时 还 可 能 根据 上 面 jiffies 的 位 划分 对 将 其 他 级 别 的 定时 器 做 级 联 处 理 。 


这 种 方法 虽然 初 看 起 来 有 些 复杂 ， 但 能 很 好 地 处 理 定时 器 不 多 或 有 大 量 定时 器 的 情况 。 
用 来 管理 每 个 活动 定时 器 所 需 的 必要 时 间 和 已 注册 的 定时 器 数量 无 关 , 同 时 被 限于 定时 
器 expires 字段 二 进 制 表达 上 的 几 个 逻辑 操作 。 这 种 实现 唯一 的 开销 在 于 512 个 链表 
头 (256 个 短期 链表 以 及 4 组 64 个 的 长 期 链表 ) 占用 了 4KB 的 存储 空间 。 


如 同 /procljitimer 所 描述 的 ,函数 __run_timers 运行 在 原子 上 下 文中 。 除了 我 们 已 经 描 
述 过 的 限制 外 , 这 带 来 了 一 个 有 趣 的 特点 : 定时 器 会 在 正确 的 时 间 到 期 即使 我 们 运行 
的 不 是 抢占 式 的 内 核 , 而 CPU 会 忙于 内 核 空 间 。 如 果 读 者 在 后 台 读 取 /procljirbusy 而 在 
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前 台 读 取 /etc/jitimer 时 ,就 能 看 到 这 个 特点 。 尽 管 系统 似乎 被 忙 等 待 系统 调用 整个 锁 住 ， 
但 内 核定 时 器 仍然 可 很 好 地 工作 。 


但 需要 谨 记 的 是 ,内 核定 时 器 离 完美 还 有 很 大 距离 ,因为 它 受 到 jitter 以 及 由 硬件 中 断 、 
其 他 定时 器 和 异步 任务 所 产生 的 影响 。 和 简单 数字 IO 关联 的 定时 器 对 简单 任务 来 说 足 
够 了 ， 比 如 控制 步 进 电机 或 者 业余 电子 设备 ， 但 通常 不 适合 于 工业 环境 下 的 生产 系统 。 
对 这 类 任务 ， 我 们 需要 借助 某 种 实时 的 内 核 扩 展 。 


tasklet 


和 定时 间 题 相关 的 另 一 个 内 核 设施 是 tasklet (小 任务 ) 机 制 。 中 断 管理 (第 十 章 将 进 一 
步 描 述 ) 中 大 量 使 用 了 这 种 机 制 。 


taskiet 在 很 多 方面 类 似 内 核定 时 器 : 它们 始终 在 中 断 期 间 运行 , 始终 会 在 调度 它们 的 同 
一 CPU 上 运行 , 而 且 都 接收 一 个 unsigned long 参数 。 和 内 核定 时 器 不 同 的 是 , 我 
们 不 能 要 求 tasklet 在 某 个 给 定时 间 执 行 。 调度 一 个 tasklet, 表明 我 们 只 是 希望 内 核 选择 
某 个 其 后 的 时 间 来 执行 给 定 的 函数 。 这 种 行为 对 中 断 处 理 例 程 来 说 尤其 有 用 , 中 断 处 理 
例 程 必 须 尽 可 能 快 地 管理 硬件 中 断 ,而 大 部 分 数据 管理 则 可 以 安全 地 延迟 到 其 后 的 时 间 。 
实际 上 ，、 和 内 核定 时 器 类 似 ，tasklet 也 会 在 “软件 中 断 ” 上 下 文 以 原子 模式 执行 。 软 件 
中 断 是 打开 硬件 中 断 的 同时 执行 某 些 异步 任务 的 一 种 内 核 机 制 。 


taskiet 以 数据 结构 的 形式 存在 , 并 在 使 用 前 必须 初始 化 。 调用 特定 的 函数 或 者 使 用 特定 
的 宏 来 声明 该 结构 ， 即 可 完成 tasklet 的 初始 化 : 


#include <linux/interrupt.h> 
struct tasklet_struct { 

ee 

void (*func) (unsigned long); 


unsigned long data; 
二 
void tasklet_init{(struct tasklet_struct *t, 
void (*func) (unsigned long), unsigned long data); 


DECLARE_TASKLET (name, func, data); 
DECLARE_TASKLET_DISABLED (name, func, data); 


tasklet 为 我 们 提供 了 许多 有 意思 的 特性 : 


。 一 个 tasklet 可 在 稍 后 被 禁止 或 者 重新 启用 ; 只 有 启用 的 次 数 和 禁止 的 次 数 相同 时 ， 
tasklet 才 会 被 执行 。 


。 “和 定时 器 类 似 ，tasklet 可 以 注册 自己 本 身 。 
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。 ”tasklet 可 被 调度 以 在 通常 的 优先 级 或 者 高 优先 级 执行 .高 优先 级 的 tasklet 总 会 首先 
执行 。 

。 ”如 果 系 统 负荷 不 重 ， 则 tasklet 会 立即 得 到 执行 ， 但 始终 不 会 晚 于 下 一 个 定时 器 滴 
答 。 


。 ”一 个 tasklet 可 以 和 其 他 tasklet 并 发 , 但 对 自身 来 讲 是 严格 串 行 处 理 的 , 也 就 是 说 ， 
同一 tasklet 永 远 不 会 在 多 个 处 理 器 上 同时 运行 。 当 然 我 们 已 经 指出 , tasklet 始 终 会 
在 调度 自己 的 同一 CPU 上 运行 。 


it 模块 包含 两 个 文件 , 即 /proctjitasklet 和 /procljitaskethi， 它们 返回 的 数据 和 “内 核定 
时 器 ”一 节 中 讲 到 的 /proc/jitimer 相同 。 在 读 取 其 中 一 个 文件 时 ,我 们 将 获得 一 个 标题 
行 和 6 个 数据 行 。 第 一 个 数据 行 描述 了 调用 进程 的 上 下 文 , 而 其 他 行 则 描述 了 其 后 运行 
tasklet 时 的 上 下 文 。 当 编译 内 核 时 运行 下 面 的 命令 ， 将 给 出 如 下 输出 : 


Phong cat /proc/jitasklet 


time delta inirqg pid cpu command 
6076139 0 0 4370 0 cat 

6076140 1 1 4368 0 cel 

6076141 1 1 4368 0 ee 

6076141 0 1 2 0 ksoftirgqd/0 
6076141 0 证 2 0 ksoftirgd/0 
6076141 0 1 2 0 ksoftirgqd/0 


如 上 面 数据 所 证 实 ， 只 要 CPU 忙于 运行 某 个 进程 ，tasklet 就 会 在 下 一 个 定时 器 滴答 运 
行 , 但 如 果 CPU 空闲， 则 会 立即 运行 。 内 核 为 每 个 CPU 提供 了 一 组 ksoftirq 内 核 线程 ， 
用 于 运行 “软件 中 断 ” 处 理 例 程 ， 比 如 taskliet_action 函数 。 这 样 ， 最 后 三 次 tasklet 的 
运行 都 发 生 在 与 0 号 CPU 关 联 的 ksoftirgd 内 核 线程 的 上 下 文中 。jitaskiethi 的 实现 使 用 
了 高 优先 级 的 tasklet， 下 面 将 解释 相关 的 函数 。 


用 来 实现 /proc/jitasklet 和 /procljitasklethi 的 jit 模块 代码 几乎 和 实现 /procijitimer 的 代 
码 一 模 一 样 , 只 是 前 者 使 用 了 tasklet 调 用 而 不 是 定时 器 接口 。 下 面 的 清单 描述 了 tasklet 
相关 的 内 核 接口 ， 可 在 tasklet 结构 被 初始 化 之 后 使 用 : 


void tasklet_disable(struct tasklet_struct *t); 
这 个 函数 禁用 指定 的 tasklet。 该 tasklet 仍 然 可 以 用 tasklet_schedule 调度 , 但 其 执 
行 被 推迟 ， 直 到 该 tasklet 被 重新 启用 。 如 果 tasklet 当前 正在 运行 ， 该 函数 会 进入 
忙 等 待 直 到 tasklet 退 出 为 止 ; 因此 , 在 调用 tasklet_disable 之 后 , 我 们 可 以 确信 该 
tasklet 不 会 在 系统 中 的 任何 地 方 运行 。 


void tasklet_disable nosync{(struct tasklet_struct *t); 


材 用 指定 的 tasklet, 但 不 会 等 待 任何 正在 运行 的 tasklet 退 出 。 该 函数 返回 后 , tasklet 
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是 禁用 的 , 而 且 在 重新 启用 之 前 , 不 会 再 次 被 调度 。 但 是 ， 当 该 函数 返回 时 ,指定 
的 tasklet 可 能 仍 在 其 他 CPU 上 运行 。 

void tasklet enable{struct tasklet_struct *t); 
启用 一 个 先前 被 禁用 的 tasklet。 如 果 该 tastlet 已 经 被 调度 ， 它 很 快 就 会 运行 。 对 
tasklet_enable 的 调用 必须 和 每 个 对 tasklet_disable 的 调用 匹配 ， 因 为 内 核对 每 个 
tasklet 保存 有 一 个 “禁用 计数 ”。 

void tasklet_schedule{struct tasklet_ struct *t); 
调度 执行 指定 的 tasklet。 如 果 在 获得 运行 机 会 之 前 , 某 个 tasklet 被 再 次 调度 , 则 该 
taskiet 只 会 运行 一 次 。 但 是 如 果 在 该 tasklet 运行 时 被 调度 ， 就 会 在 完成 后 再 次 运 
行 。 这 样 , 可 确保 正在 处 理事 件 时 发 生 的 其 他 事件 也 会 被 接收 并 注意 到 。 这 种 行为 
也 允许 tasklet 重新 调度 自身 。 

void tasklet hi_schedule(struct tasklet_struct *t); 
调度 指定 的 tasklet 以 高 优先 级 执行 。 当 软件 中 断 处 理 例 程 运行 时 , 它 会 在 处 理 其 他 
软件 中 断 任务 (包括 “通常 ”的 tasklet) 之 前 处 理 高 优先 级 的 tasklet。 理想 状态 下 ， 
只 有 具备 低 延 迟 需求 的 任务 (比如 填充 音频 缓冲 区 ) 才能 使 用 这 个 函数 , 这 样 可 避 
免 由 其 他 软件 中 断 处 理 例 程 引 入 的 额外 延迟 。 和 /proc/jitasklet 相 比 ，/proc/ 
jirasklethi 给 出 了 肉眼 能 察觉 的 区 别 。 

void tasklet killi{struct tasklet_struct *t); 
该 函数 确保 指定 的 tasklet 不 会 被 再 次 调度 运行 ; 当 设 备 要 被 关闭 或 者 模块 要 被 移 除 
时 , 我 们 通常 调用 这 个 函数 。 如 果 tasklet 正 被 调度 执行 , 该 函数 会 等 待 其 退出 。 如 
果 tasklet 重新 调度 自己 ， 则 应 该 避免 在 调用 taskiet_kill 之 前 完成 重新 调度 ， 这 和 
del_timer_sync 的 处 理 类 似 。 


tasklet 的 实现 在 kernel/softirq.c 中 。 其 中 有 两 个 (通常 优先 级 和 高 优先 级 的 ) tasklet 链 
表 , 它们 作为 per-CPU 数 据 结构 而 声明 , 并 且 使 用 了 类 似 内 核定 时 器 那样 的 CPU 相 关机 
制 。tasklet 管 理 中 使 用 的 数据 结构 是 个 简单 的 链表 , 因为 tasklet 不 必 像 内 核定 时 器 那样 
来 处 理 时 间 问 题 。 


工作 队列 


从 表面 看 来 ， 工作 队列 (workqueve) 类 似 于 tasklet， 它 们 都 允许 内 核 代码 请 求 某 个 函 
数 在 将 来 的 时 间 被 调用 。 但 是 ， 两 者 之 间 存 在 一 些 非常 重要 的 区 别 ， 其 中 包括 : 


。 “tasklet 在 软件 中 断 上 下 文中 运行 因此， 所 有 的 tasklet 代码 都 必须 是 原子 的 。 相 
反 , 工 作 队列 函数 在 一 个 特殊 内 核 进程 的 上 下 文中 运行 ,因此 它们 具有 更 好 的 灵活 
性 。 尤 其 是 ， 工 作 队列 沙 数 可 以 休眠 。 
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。 “tasklet 始终 运行 在 被 初始 提交 的 同一 处 理 器 上 ， 但 这 只 是 工作 队列 的 默认 方式 。 
。 ”内 核 代码 可 以 请 求 工作 队列 函数 的 执行 延迟 给 定 的 时 间 间 隔 。 


两 者 的 关键 区 别 在 于 : tasklet 会 在 很 短 的 时 间 段 内 很 快 执行 ,并且 以 原子 模式 执行 、 而 
工作 队列 函数 可 具有 更 长 的 延迟 并 且 不 必 原 子 化 。 两 种 机 制 有 各 自 适合 的 情形 。 


工作 队列 有 struct workqueue_struct 的 类 型 ， 该 结构 定义 在 <linux/workqueue.h> 
中 。 在 使 用 之 前 ， 我 们 必须 显 式 地 创建 一 个 工作 队列 ， 可 使 用 下 面 两 个 函数 之 一 : 


struct workdqueue_struct *create workqueuelconst char *name); 
struct workqueue_struct *create singlethread workqueue{const char *name); 


每 个 工作 队列 有 一 个 或 多 个 专用 的 进程 (“内 核 线程 ")， 这 些 进程 运行 提交 到 该 队列 的 
函数 。 如 果 我 们 使 用 create_workqueue, 则 内 核 会 在 系统 中 的 每 个 处 理 器 上 为 该 工作 队 
列 创建 专用 的 线程 。 在 许多 情况 下 , 众多 的 线程 可 能 对 性 能 具有 某 种 程度 的 杀伤 力 ; 因 
此 ,如果 单 个 工作 线程 足够 使 用 , 那么 应 该 使 用 create_singlethread_workqueue 创建 工 
作 队 列 。 


要 向 一 个 工作 队列 提交 一 个 任务 , 需要 填充 一 个 work_struct 结 构 , 这 可 通过 下 面 的 
宏 在 编译 时 完成 : 


DECLARE_WORK (name, void {(*function) (void *), void *data); 


其 中 , name 是 要 声明 的 结构 名 称 , function 是 要 从 工作 队列 中 调用 的 函数 , 而 data 
是 要 传递 给 该 函数 的 值 。 如果 要 在 运行 时 构造 work_struct 结 构 , 可 使 用 下 面 两 个 宏 : 


INIT WORK(struct work_struct *work, void (*function) (void *), void *data); 
PREPARE_ WORK(struct work_struct *work, void (*function) (void *), void *data); 


INIT_WORK 完成 更 加 彻底 的 结构 初始 化 工作 ; 在 首次 构造 该 结构 时 , 应 该 使 用 这 个 宏 。 
PREPARE _ WORK 完成 几乎 相同 的 工作 , 但 它 不 会 初始 化 用 来 将 work_struct 结 构 链 
接 到 工作 队列 的 指针 。 如 果 结 构 已 经 被 提交 到 工作 队列 , 而 只 是 需要 修改 该 结构 , 则 应 
该 使 用 PREPARE_WORK 而 不 是 INIT_WORK。 


如 果 要 将 工作 提交 到 工作 队列 ， 则 可 使 用 下 面 的 两 个 函数 之 一 : 
int queue_ work{struct workqueue_ struct *queue, struct work_struct *work); 


int queue_delayed worklstruct workqueue_struct *queue, 
struct work_struct *work, unsigned long delay); 


它们 都 会 将 work 添 加 到 给 定 的 queue。 但 是 如 果 使 用 queue_delayed_work, 则 实际 的 
工作 至 少 会 在 经 过 指定 的 jiffies (由 delay 指定 ) 之 后 才 会 被 执行 。 如 果 工 作 被 成 功 添 
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加 到 队列 , 则 上 述 函 数 的 返回 值 为 1。 返 回 值 为 非 零 时 意味 着 给 定 的 work_struct 结 
构 已 经 等 待 在 该 队列 中 ， 从 而 不 能 两 次 加 入 该 队列 。 


在 将 来 的 某 个 时 间 ， 工作 函数 会 被 调用 、 并 传人 给 定 的 aata 值 。 该 函数 会 在 工作 线程 
的 上 下 文 运行 ， 因 此 如 果 必 要 ， 它 可 以 休 眼 一 一 当然 、 我 们 应 该 仔细 考虑 休眠 会 不 会 
影响 提交 到 同一 工作 队列 的 其 他 任务 。 但 是 该 函数 不 能 访问 用 户 空间 , 这 是 因为 它 运行 
在 内 核 线程 ， 而 该 线程 没有 对 应 的 用 户 空间 可 以 访问 。 


如 果 要 取消 某 个 挂 起 的 工作 队列 入 口 项 ， 可 调用 : 


int cancel delayed work{struct work_struct *work); 


如 果 该 入 口 项 在 开始 执行 前 被 取消 ， 则 上 述 函 数 返 回 非 零 值 。 在 调用 cancel_delayed_ 
work 之 后 , 内 核 会 确保 不 会 初始 化 给 定 入 品 项 的 执行 。 但 是 , 如 果 cancel_delayed_work 
返回 0, 则 说 明 该 入口 项 已 经 在 其 他 处 理 器 上 运行 , 因此 在 cancel_delayed_work 返 回 后 
可 能 仍 在 运行 。 为 了 绝对 确保 在 cancel_delayed_work 返回 0 之后， 工作 函数 不 会 在 系 
统 中 的 任何 地 方 运行 ， 则 应 该 随后 调用 下 面 的 函数 : 


void flush workqueue (struct workqueue_struct *queue); 
在 flush_workqueue 返回 后 ， 任 何在 该 调用 之 前 被 提交 的 工作 函数 都 不 会 在 系统 任何 地 
方 运行 。 
在 结束 对 工作 队列 的 使 用 后 ， 可 调用 下 面 的 函数 释放 相关 资源 : 


void destroy _workqueue{struct workqueue_struct *queue); 


共享 队列 


在 许多 情况 下 , 设备 驱动 程序 不 需要 有 自己 的 工作 队列 。 如果 我 们 只 是 偶尔 需要 向 队列 
中 提交 任务 , 则 一 种 更 简单 、 更 有 效 的 办 法 是 使 用 内 核 提 供 的 共享 的 默认 工作 队列 。 但 
是 , 如 果 我 们 使 用 这 个 工作 队列 ，, 则 应 该 记 住 我 们 正在 和 其 他 人 共享 该 工作 队列 。 这 意 
味 着 , 我 们 不 应 该 长 期 独占 该 队列 , 即 不 能 长 时 间 休 眠 , 而 且 我 们 的 任务 可 能 需要 更 长 
的 时 间 才 能 获得 处 理 器 时 间 。 


jiqg 《{ “just in queue”) 模块 导出 了 两 个 文件 ， 这 两 个 文件 演示 了 共享 队列 的 使 用 。 它 们 
使 用 了 单个 work_struct 结构 ， 并 用 下 面 的 方式 进行 初始 化 : 
static struct work_struct jiqg work; 


/* 这 行 语句 出 现在 jiq_init() 中 “/ 
INIT_WORK{&jiq work, jiq print_wq, &jiq datal) 
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当 进 程 读 取 /procWigwqg 时 ,该 模块 会 通过 共享 工作 队列 初始 化 一 系列 的 trip, 并 不 作 任 
何 延迟 。 它 使 用 的 函数 是 : 


int Schedule_work(Struct work_struct *work); 


注意 , 在 利用 共享 队列 时 , 模块 使 用 的 是 不 同 的 函数 , 因为 它 要 求 work_struct 结构 
能 够 带 有 参数 。jig 中 的 实际 代码 如 下 : 
prepare_to_wait{(&jiq wait, &wait, TASK_INTERRUPTIBLE); 
schedule work (&jiq work); 


schedule(}); 
finish wait{(&jiq wait, &wait); 


实际 的 工作 函数 打印 了 一 行文 本 , 这 类 似 jit 模 块 , 然后 如 有 必要 , 将 work_struct 结 
构 重新 提交 给 工作 队列 。 下 面 是 完整 的 jig_print_wq 函数 : 
static void jiqg print wqlvoid *ptr) 


{ 
struct clientdata *data = (struct clientdata *) ptr; 


fa 0 iq olin te 
return; 


if {data->delay) 
schedule delayed work(&jiq work, data->delay); 
else 
schedule_work{&jiq work); 
} 


如 果 用 户 读 取 延 迟 的 设备 (/proc/jjiqwqdelay), 工作 函数 会 将 自己 以 延迟 模式 重新 提交 
到 工作 队列 ， 这 时 使 用 schedule_delayed_work 国 数 : 

int schedule delayed work(struct work_struct *work, unsigned long delay)}; 
如 果 查 看 这 两 个 设备 上 的 输出 ， 其 结果 如 下 所 示 : 


% cat /proc/jiqwqg 
time delta preempt pid cpu command 


1113043 0 0 1 events/1 
1113043 0 0 7 1 events/1 
1113043 0 0 1 eventSs/1 
1113043 0 0 y 1 eventsy/1 
1113043 0 0 7 1 events/1 
$ cat /proc/jiqwgdelay 

time delta preempt pid cpu command 
1122066 1 0 6 0 events/0 
1122067 1 0 6 0 events/0 
1122068 1 0 6 0 events/0 
1122069 1 0 6 0 events/0 
1122070 1 0 6 0 events/0 


208 第 七 章 





读 取 /procijiqwq 时 ， 每 行 的 打印 看 不 到 明显 的 延迟 。 相 反 ， 读 取 /proc/jigwqdelay 时 ， 
在 每 行 之 间 存 在 明显 的 一 个 jiffies 延迟 。 不论 哪 种 情况 , 我 们 都 能 看 到 名 为 Printed 的 同 
一 进程 , 它 就 是 实现 共享 工作 队列 的 内 核 线程 。 CPU 编号 打印 在 斜 杠 之 后 , 我 们 无 法 知 
道 读 取 /Proc 文 件 时 究竟 运行 在 哪个 CPU 上 , 但 工作 函数 其 后 会 始终 运行 在 同一 处 理 器 
上 。 


如 果 需 要 取消 已 提交 到 共享 队列 中 的 工作 入 口 项 ， 则 可 使 用 上 面 描述 过 和 的 cancel_ 
delayed_work 函数 。 但 是 ， 刷 新 共享 工作 队列 时 需要 另 一 个 函数 : 


void flush scheduled work {void); 


因为 我 们 无 法 知道 其 他 人 是 否 在 使 用 该 队列 ， 因 此 我 们 也 无 法 知道 在 flush_scheduled_ 
work 返回 前 到 底 要 花费 多 少时 间 。 


快速 参考 


本 章 引 入 了 如 下 符号 : 


计时 
#include <linux/param.h> 
HZ 
HZ 符号 指出 每 秒 钟 产生 的 时 钟 滴 答 数 。 


#include <linux/jiffies.h> 

volatile unsigned long jiffies 

u64 jiffies_64 
jiffies_64 变量 会 在 每 个 时 钟 滴答 递增 ， 也 就 是 说 ， 它 会 在 每 秒 递增 HZ 次。 内 
核 代码 大 部 分 情况 下 使 用 jiffies, 在 64 位 平台 上 , 它 和 jiffies_64 是 一 样 的 ， 
而 在 32 位 平台 上 ，jiffies 是 jiffies_64 的 低 32 位 。 


int time_after (unsigned long a, unsigned 1ong b); 

int time_before(unsigned long a, unsigned long b); 

int time after eq(unsigned long a, unsigned long b); 

int time before_eq(lunsigned long a, unsigned long b); 
这 些 布尔 表达 式 以 安全 方式 比较 jiffies, 无 需 考 虑 计数 器 溢出 的 问题 , 也 不 必 访 问 
jiffies_64。 


u64 get_jiffies_64(void); 
无 竞 态 地 获取 jiffies_64 的 值 。 
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#include <linux/time.h>- 
unsigned long timespec. to jiffies(struct timespec *value); 
void jiffies_to timespec (unsigned long jiffies, struct timespec *value); 
unsigned long timeval_to_jiffies(struct timeval *value); 
void jiffies_to_timeval (unsigned long jiffies, struct timeval *value); 
在 jiffies 表示 的 时 间 和 其 他 表示 法 之 间 转 换 。 
#include <asm/msr.h> 
rdtsc (low32,high32); 
rdtscl (low32); 
rdtscll (var32); 
x86 专用 的 宏 ， 用 来 读 取 时 间 蕉 计数 器 。 上 述 宏 用 两 个 32 位 字 的 形式 读 取 该 计数 
器 ， 要 么 读 取 低 32 位 ， 要 么 整个 读 取 到 一 个 1ong long 型 的 变量 中 。 
#include <linux/timex.h> 
cycles_t get_cycles (void); 
以 平台 无 关 的 方式 返回 时 间 玲 计数 器 。 如 果 CPU 不 提供 时 间 玲 特性 ， 则 返回 0。 
#include <linux/time.h> 
unsigned long mktime{lyear, mon, day, h, m, s)} 
根据 6 个 无 符号 的 int 参数 返回 自 Epoch 以 来 的 秒 数 。 
void do gettimeofday (struct timeval *tv); 
以 自 Epoch 以 来 的 秒 数 和 毫秒 数 的 形式 返回 当前 时 间 ,并 且 以 硬件 能 提供 的 最 好 分 
辨 率 返 回 。 在 大 多 数 平台 上 , 分 辩 率 是 微 秒 或 更 好 , 但 某 些 平台 只 能 提供 jiffies 级 
的 分 辩 率 。 
struct timespec current_kernel time(void); 


以 jiffies 为 分 辩 率 返回 当前 时 间 。 


延迟 
#include <linux/wait.h> 
long wait_event_interruptible timeout (wait. queue head t *q, condition, signed 
long timeout); 
使 当前 进程 休 眼 在 等 待 队 列 上 , 并 指定 用 jiffies 表 达 的 超时 值 。 如 果 要 进入 不 可 中 
断 休 卢 ， 则 应 使 用 schedule_timeout ( 见 下 )。 
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#include <linux/sched.h> 

signed long schedule timeout {signed long timeout); 
调用 调度 器 ， 确 保 当 前 进程 可 在 给 定 的 超时 值 之 后 被 唤醒 。 调 用 者 必须 首先 调用 
set_current_state 将 自己 置 于 可 中 断 或 不 可 中 斯 的 休眠 状态 。 


#include <linux/delay.h> 

void ndelay (unsigned long nsecs)}; 

void udelay (unsigned long usecs); 

void mdelay {unsigned long msecs); 
引入 整数 的 纳 秒 、 微 秒 和 毫秒 级 延迟 。 实际 达到 的 延迟 至 少 是 请 求 的 值 , 但 可 能 更 
长 。 传 人 每 个 函数 的 参数 不 能 超过 平台 相关 的 限制 (通常 是 几 千 )。 

void msleep (unsigned int millisecs); 

unsigned long msleep, interruptible(unsigned int millisecs); 


void ssleep (unsigned int seconds); 


使 进程 休 了 眼 给 定 的 毫秒 数 (或 使 用 ssieep 休眠 给 定 的 秒 数 )。 


内 核定 时 器 


#include <asm/hardirq.h> 

int in interrupt {void); 

int in_atomict{void); 
返回 布尔 值 以 告知 调用 代码 是 否 在 中 断 上 下 文 或 者 在 原子 上 下 文中 执行 ,中 断 上 下 
文 在 进程 上 下 文 之 外 , 可 能 正 处 理 硬 件 或 软件 中 断 。 原子 上 下 文 是 指 不 能 进行 调度 
的 时 间 点 ， 比 如 中 断 上 下 文 或 者 拥有 自 旋 锁 时 的 进程 上 下 文 。 

#include <linux/timer.h> 

void init timer(struct timer_list * timer); 

struct timer_list TIMER_INITIALIZER(_function, _expires, _data); 
上 面 的 函数 以 及 静态 声明 定时 器 结构 的 宏 是 初始 化 timer_list 数 据 结构 的 两 种 方 
式 。 

void add timer (struct timer_list * timer); 
注册 定时 器 结构 ， 以 在 当前 CPU 上 运行 。 

int mod_ timer{struct timer_list *timer, unsigned long expires); 
修改 一 个 已 经 调度 的 定时 器 结构 的 到 期 时 间 。 它 也 可 以 替代 add_timer 函 数 使 用 。 

int timer pending(struct timer list * timer); 


返回 布尔 值 的 宏 ， 用 来 判断 给 定 的 定时 器 结构 是 否 已 经 被 注册 运行 。 


时 间 、 廷 迟 及 延缓 操作 211 





void del_ timer (struct timer_list * timer); 
void del timer_sync(struct timer_list * timer); 
从 活动 定时 器 清单 中 删除 一 个 定时 器 。 后 一 个 函数 确保 定时 器 不 会 在 其 他 CPU 上 


a 


运行 。 


tasklet 


#include <linux/interrupt.h> 
DECLARE_TASKLET (name, func, data); 
DECLARE_TASKLET_ DISABLEDIname, func, data); 
void tasklet_init(struct tasklet_struct *t, void {*func) (unsigned long), 
unsigned long data); 
前 面 两 个 宏 声明 一 个 tasklet 结构 ， 而 taskiet_init 函数 初始 化 一 个 通过 分 配 或 者 其 
他 途径 获得 的 tasklet 结构 。 第 二 个 DESCLARE 宏 禁用 给 定 的 tasklet。 


void tasklet_disabielstruct tasklet_struct *t); 

void tasklet_disable nosync(struct tasklet_struct *t); 

void tasklet_ enable(struct tasklet_struct *t); 
禁用 或 重新 启用 某 个 tasklet。 每 次 禁止 都 要 匹配 一 次 使 能 (我们 可 以 禁用 一 个 已 经 
被 禁用 的 tasklet)。taskiet_disable 函数 会 在 tasklet 正在 其 他 CPU 上 运行 时 等 待 ， 
而 nosync 版 本 不 会 完成 这 个 额外 的 步骤 。 

void tasklet_schedule(struct tasklet_struct *t); 

void tasklet_hi_schedule(Sstruct tasklet_struct *t); 
调度 运行 某 个 tasklet, 可 以 是 “通常 ”的 tasklet 或 者 一 个 高 优先 级 的 tasklet。 当 执 
行 软件 中 断 时 ， 高 优先 级 的 tasklet 会 被 首先 处 理 ， 而 通常 的 tasklet 最 后 运行 。 


void tasklet_ xkill(struct tasklet_struct *t); 


如 果 指 定 的 tasklet 被 调度 运行 ， 则 将 其 从 活动 链表 中 删除 。 和 tasklet_disable 类 
似 , 该 函数 可 在 SMP 系 统 上 阻塞 , 以 便 等 待 正在 其 他 CPU 上 运行 的 该 tasklet 终 止 。 


工作 队列 


#include <linux/workqueue.h> 
struct workgqueue_struct; 
struct work_struct; 


上 述 结构 分 别 表示 工作 队列 和 工作 和 人口 项 。 
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struct workqueue_ struct *create workqueue(const char *name); 

struct workqueue struct *create_ singlethread workqueue{const char *name); 

void destroy_workqueue{struct workqueue_struct *queue): 
用 于 创建 和 销毁 工作 队列 的 函数 。 调 用 create_workguere 将 创建 一 个 队列 , 且 系 统 
中 的 每 个 处 理 器 上 都 会 运行 一 个 工作 线程 ; 相反 , create_singlethread_workqueue 
只 会 创建 单个 工作 进程 。 

DECLARE _ WORK {name, void (*function) (void *), void *data); 

INIT WORK(struct work._ struct *work, void {*function) (void *), void *data); 

PREPARE, WORK (struct work_struct *work, void (*function) (void *), void *data); 


用 于 声明 和 初始 化 工作 队列 入 口 项 的 宏 。 


int queue_work{struct workqueue_struct *queue, struct work_struct *work); 
int queue_delayed workl{struct workqueue_struct *queue, struct 
work_struct *work, unsigned long delay); 


用 来 安排 工作 以 便 从 工作 队列 中 执行 的 函数 。 


int cancel_delayed_work (struct work_struct *work),; 

void flush workqueue (struct workqueue_struct *queue); 
使 用 cancel_detayed_work 可 从 工作 队列 中 删除 一 个 人 口 项 ; flush_workqueue 确 保 
系统 中 任何 地 方 都 不 会 运行 任何 工作 队列 入 口 项 。 

int Schedule_work (struct work_struct *work); 

int schedule delayed work{struct work struct *work, unsigned long delay); 


void flush,_scheduled work{void); 


使 用 共享 工作 队列 的 函数 。 
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到 目前 为 止 , 我 们 已 经 使 用 过 kmalloc 和 kfree 来 分 配 和 释放 内 存 , 但 Linux 内 核实 际 上 
提供 了 更 加 丰富 的 内 存 分 配 原 语 集 。 本 章 我 们 将 会 介绍 设备 驱动 程序 中 使 用 内 存 的 一 些 
其 他 方法 , 还 会 介绍 如 何 最 好 地 利用 系统 内 存 资源 。 我们 不 会 讨论 不 同体 系 结构 是 如 何 
实际 管理 内 存 的 。 因 为 内 核 为 设备 驱动 程序 提供 了 一 致 的 内 存 管理 接口 , 所 以 模块 不 需 
要 涉及 分 段 、 分 页 等 问题 。 另 外 ， 本 章 也 不 会 描述 内 存 管理 的 内 部 细节 ,这 些 问 题 将 留 
到 第 十 五 章 讨论 。 


kmalloc 函数 的 内 幕 


kmalloc 内 存 分 配 引擎 是 一 个 功能 强大 的 工具 ， 由 于 和 malloc 相似 ， 所 以 学 习 它 也 很 容 
易 。 除 非 被 阻塞 ， 否 则 这 个 函数 可 运行 得 很 快 ， 而 且 不 对 所 获取 的 内 存 空间 清 零 ， 也 就 
是 说 , 分 配给 它 的 区 域 仍然 保持 着 原 有 的 数据 ( 注 1)。 它 分 配 的 区 域 在 物理 内 存 中 也 是 
连续 的 。 在 下 面 几 节 中 ,我们 将 详细 讨论 kmalloc 函数 ， 读者 可 以 把 它 和 后 面 将 要 讨论 
的 其 他 一 些 内 存 分 配 技 术 做 个 比较 。 


flags 参数 
记 住 kmalloc 的 原型 是 : 
#include <linux/slab.h> 


void *kmalloc (size_t size, int flags); 





注 工 最 重要 的 是 ， 这 意味 着 我 们 要 将 内 存 显 式 地 清空 ， 尤其 是 可 能 导出 给 用 户 空间 或 者 写 入 
设备 的 内 存 ; 否则 ， 就 可 能 将 私有 信息 泄露 出 去 。 


213 


mm 


kmalloc 的 第 一 个 参数 是 要 分 配 的 块 的 大 小 , 第 二 个 参数 是 分 配 标志 (flags ), 更 有 意思 
的 是 ， 它 能 够 以 多 种 方式 控制 kmalloc 的 行为 。 


最 常用 的 标志 是 GFP_KERNEL, 它 表 示 内 存 分 配 (最 终 总 是 调用 get_free_pages 来 实现 
实际 的 分 配 ， 这 就 是 GFP_ 前缀 的 由 来 ) 是 代表 运行 在 内 核 空 间 的 进程 执行 的 。 换 句 话 
说 ， 这 意味 着 调用 它 的 函数 正 代 表 某 个 进程 执行 系统 调用 。 使 用 GFP_KERNEL 人 允许 
kmalloc 在 空闲 内 存 较 少时 把 当前 进程 转 人 休眠 以 等 待 一 个 页 面 。 因 此 ， 使 用 
GFP_KERNEL 分 配 内 存 的 函数 必须 是 可 重 人 的 。 在 当前 进程 休眠 时, 内核 会 采取 适当 的 
行动 , 或 者 是 把 缓冲 区 的 内 容 刷 写 到 硬盘 上 , 或 者 是 从 一 个 用 户 进程 换 出 内 存 , 以 获取 
一 个 内 存 页 面 。 


GFP_KERNEL 分 配 标志 并 不 是 始终 适用 , 有 时 kmalloc 是 在 进程 上 下 文 之 外 被 调用 的 , 例 
如 在 中 断 处 理 例 程 、tasklet 以 及 内 核定 时 器 中 调用 。 这 种 情况 下 current 进程 就 不 应 
该 休 眼 ， 驱 动 程序 则 应 该 换 用 GFP_ATOMIC 标志 。 内 核 通常 会 为 原子 性 的 分 配 预 留 一 
些 空 闪 页 面 。 使 用 GFP._ATOMIC 标 志 时 ,kmalloc 甚至 可 以 用 掉 最 后 一 个 空闲 页 面 。 不 
过 如 果 连 最 后 一 页 都 没有 了 ， 分 配 就 返回 失败 。 


除了 GFP_KERNEL 和 GFP_RATOMIC 外 , 还 有 一 些 其 他 的 标志 可 用 于 替换 或 补充 这 两 个 
标志 ， 不 过 这 两 个 标志 已 经 可 以 满足 大 多 数 驱 动 程序 的 需要 了 。 所 有 的 标志 都 定义 在 
<linux/gfp.h> 中 ， 有 个 别 的 标志 使 用 两 个 下 划 线 作为 前 绥 ， 比 如 -~ _GFP_DMR。 另 外 ， 
还 有 一 些 符 号 表示 这 些 标志 的 常用 组 合 ,它们 没有 这 种 前 级 , 并且 有 时 称 为 “分 配 优先 
级 ”。 这 些 符号 包括 : 


GFP_ATOMIC 
用 于 在 中 断 处 理 例 程 或 其 他 运行 于 进程 上 下 文 之 外 的 代码 中 分 配 内 存 , 不 会 休眠 。 


GFP, KERNEL 
内 核 内 存 的 通常 分 配方 法 ， 可 能 引起 休眠 。 


GFP_USER 
用 于 为 用 户 空间 页 分 配 内 存 ， 可 能 会 休眠 。 


GFP_HIGHUSER 
类 似 于 GFP_USER, 不 过 如 果 有 高 端 内 存 的 话 就 从 那里 分 配 。 我 们 在 下 一 小 节 讨 论 
高 端 内 存 相关 的 话题 。 


GFP_NOIO 

GFP_NOFS 
这 两 个 标志 的 功能 类 似 于 GFP_KERNEL ,但 是 为 内 核 分 配 内 存 的 工作 方式 添加 了 一 
些 限制 。 具 有 GFP_NOFS 标 志 的 分 配 不 允许 执行 任何 文件 系统 调用 ,而 GFP_NOIO 
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禁止 任何 IO 的 初始 化 。 这 两 个 标志 主要 在 文件 系统 和 虚拟 内 存 代码 中 使 用 , 这 些 
代码 中 的 内 存 分 配 可 休眠 ， 但 不 应 该 发 生 递归 的 文件 系统 调用 。 


上 面 列 出 的 分 配 标志 可 以 和 下 面 的 标志 “或 ”起 来 使 用 。 下 面 这 些 标志 控制 如 何 进行 分 
配 : 


__GFP_DMA 
该 标志 请 求 分 配 发 生 在 可 进行 DMA 的 内 存 区 段 中 。 具体 的 含义 是 平台 相关 的 , 我 
们 将 在 下 一 小 节 中 解释 。 

__GFP_HIGHMEM 
这 个 标志 表明 要 分 配 的 内 存 可 位 于 高 端 内 在。 

__GFP_COLD 
通常 ， 内 存 分 配器 会 试图 返回 “缓存 热 (cache warm)” 页 面 ， 即 可 在 处 理 器 缓存 
中 找到 的 页 面 。 相 反 ， 这 个 标志 请 求 尚 未 使 用 的 “ 冷 ”页 面 。 对 用 于 DMA 读 取 的 
页 面 分 配 , 可 使 用 这 个 标志 , 因为 这 种 情况 下 , 页 面 存在 于 处 理 器 缓存 中 没有 多 大 
帮助 。 有 关 DMA 缓 冲 区 分 配 的 详细 信息 ， 可 参阅 第 十 五 章 的 “直接 内 存 访问 ”一 
节 。 

__GFP_NOWRRN 
该 标志 很 少 使 用 。 它 可 以 避免 内 核 在 无 法 满足 分 配 请 求 时 产生 警告 (使 用 printk)。 

__GFP_HIGH 
该 标志 标记 了 一 个 高 优先 级 的 请 求 , 它 允 许 为 紧 急 状 况 而 消耗 由 内 核 保 留 的 最 后 一 
些 页 面 。 


__GFP_REPEAT 

__GFP_NOFAIL 

__GFP._ NORETRY 
上 述 标志 告诉 分 配器 在 满足 分 配 请 求 而 遇 到 困难 时 应 该 采取 何 种 行为 。 
__GFP_REPEAT 表 示 “ 努 力 再 尝试 一 次 ”， 它 会 重新 尝试 分 配 , 但 仍 有 可 能 失败 。 
__GFP_NOFAIL 标 志 告 诉 分 配器 始终 不 返回 失败 ， 它 会 努力 满足 分 配 请 求 。 我们 
不 鼓励 使 用 _ _GFP_NOFAIL 标 志 , 因为 在 设备 驱动 程序 中 , 从 没有 理由 需要 使 用 这 
个 标志 。 最 后 ，_ _GFP_NORETRY 告诉 分 配器 ， 如 果 所 请 求 的 内 存 不 可 获得 、 就 立 
即 返回 。 


内 存 区 段 
__GFP_DMA 和 _，_GFP_HIGHMEM 的 使 用 与 平台 相关 , 尽管 在 所 有 平台 上 都 可 以 使 用 这 两 
个 标志 。 
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Linux 内 核 把 内 存 分 为 三 个 区 段 : 可 用 于 DMA 的 内 存 、 常 规 内 存 以 及 高 端 内 存 。 通常 的 
内 存 分 配 都 发 生 在 常规 内 存 区 ,但 通过 设置 上 面 介 绍 过 的 标志 也 可 以 请 求 在 其 他 区 段 中 
分 配 。 其 思路 是 每 种 计算 平台 都 必须 知道 如 何 把 自己 特定 的 内 存 范围 归 类 到 这 三 个 区 段 
中 ， 而 不 是 认为 所 有 的 RAM 都 一 样 。 


可 用 于 DMA 的 内 存 指 存在 于 特别 地 址 范围 内 的 内 存 , 外 设 可 以 利用 这 些 内 存 执行 DMA 
访问 。 在 大 多 数 健全 的 系统 上 , 所 有 内 存 都 位 于 这 一 区 段 。 在 x86 平 台 上 , DMA 区 段 是 
RAM 的 前 16 MB， 老式 的 ISA 设备 可 在 该 区 段 上 执行 DMA; PCI 设备 则 无 此 限制 。 


高 端 内 存 是 32 位 平台 为 了 访问 (相对 ) 大 量 的 内 存 而 存在 的 一 种 机 制 。 如 果 不 首先 完成 
一 些 特殊 的 映射 ， 我 们 就 无 法 从 内 核 中 直接 访问 这 些 内 存 ， 因 此 通常 较 难 处 理 。 但 是 ， 
如 果 蝶 动 程序 要 使 用 大 量 的 内 存 , 那么 在 能 够 使 用 高 端 内 存 的 大 系统 上 可 以 工作 得 更 好 。 
有 关 高 端 内 存 的 工作 方式 及 使 用 方法 ， 可 参阅 第 十 五 章 “ 高 端 和 低 端 内 存 ” 一 节 。 


当 一 个 新 页 面 为 满足 kmalloc 的 要 求 被 分 配 时 ， 内 核 会 创建 一 个 内 存 区 段 的 列表 以 供 搜 
索 。 如 果 指 定 了 __GFP_DMR 标 志 , 则 只 有 DMA 区 段 会 被 搜索 : 如果 低 地 址 段 上 没有 可 
用 内 存 ， 分 配 就 会 失败 。 如 果 没 有 指定 特定 的 标志 ， 则 常规 区 段 和 DMA 区 段 都 会 被 搜 
索 ; 而 如 果 设 置 了 __GFP_HIGHMEM 标 志 , 则 所 有 三 个 区 段 都 会 被 搜索 以 获取 一 个 空闲 
页 (然而 要 注意 的 是 ，kmalloc 不 能 分 配 高 端 内 存 ) 。 


在 不 均匀 内 存 访 问 (nonuniform memory access，NUMA ) 系统 上 的 情况 更 加 复杂 。 作 
为 通常 的 规则 , 分 配器 会 试图 在 执行 该 分 配 的 处 理 器 的 本 地 内 存 区 中 定位 内 存 , 当然 存 
在 一 些 方式 来 改变 这 种 行为 。 


内 存 区 段 的 背后 机 制 在 mm/page_alloc.c 中 实现 ， 区 段 的 初始 化 是 平台 相关 的 ， 通 常 在 
对 应 的 arch 树 下 的 mmiinit.c 中 。 第 十 五 章 还 会 再 次 讨论 这 个 问题 。 


size 参数 


内 核 负 责 管理 系统 物理 内 存 ， 物 理 内 存 只 能 按 页 面 进行 分 配 。 其 结果 是 kmalloc 和 典型 
的 用 户 空 间 的 malloc 在 实现 上 有 很 大 的 差别 。 简 单 的 基于 堆 的 内 存 分 配 技 术 会 遇 到 麻 
烦 , 因为 页 面 边界 的 处 理 成 为 一 个 很 辐 手 的 问题 。 因此 内 核 使 用 了 特殊 的 基于 页 的 分 配 
技术 ,以 最 佳 地 利用 系统 RAM.。 


Linux 处 理 内 存 分 配 的 方法 是 ， 创 建 一 系列 的 内 存 对 象 地 ， 每 个 池 中 的 内 存 块 大 小 是 力 
定 一 致 的 。 处 理 分 配 请 求 时 , 就 直接 在 包含 有 足够 大 的 内 存 块 的 池 中 传递 一 个 整 块 给 请 
求 者 。 内 存 管 理 机 制 相当 复杂 ,其 细节 对 设备 驱动 程序 开发 人 员 并 不 重要 ,所 以 就 不 仔 
细 讨 论 了 。 
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驱动 程序 开发 人 员 应 该 记 住 一 点 , 就 是 内 核 只 能 分 配 一 些 预定 义 的 、 固定 大 小 的 字 节 数 
组 。 如 果 申 请 任意 数量 的 内 存 , 那么 得 到 的 很 可 能 会 多 一 些 , 最 多 会 到 申请 数量 的 两 倍 。 
另外 ， 程 序 员 应 该 记 住 ，kmallioc 能 处 理 的 最 小 的 内 存 块 是 32 或 者 64， 到底 是 哪个 则 
取决 于 当前 体系 结构 使 用 的 页 面 大 小 。 


对 kmalloc 能 够 分 配 的 内 存 块 大 小 ， 存 在 一 个 上 限 。 这 个 限制 随 着 体系 架构 的 不 同 以 及 
内 核 配 置 选项 的 不 同 而 变化 。 如 果 我 们 希望 代码 具有 完整 的 可 移植 性 , 则 不 应 该 分 配 大 
于 128KB 的 内 存 。 但 是 ， 如果 希 望 得 到 多 于 几 千 字 节 的 内 存 ， 则 最 好 使 用 除 kmalloc 之 
外 的 内 存 获 取 方 法 ， 我 们 将 在 本 章 稍 后 来 描述 这 些 方法 。 


后 备 高 速 缓存 

设备 驱动 程序 常常 会 反复 地 分 配 很 多 则 一 大 小 的 内 存 块 .既然 内 核 已 经 维护 了 一 组 拥有 
同一 大 小 内 存 块 的 内 存 池 ， 那 么 为 什么 不 为 这 些 反复 使 用 的 块 增加 某 些 特殊 的 内 存 池 
呢 ?” 实 际 上 ， 内 核 的 确实 现 了 这 种 形式 的 内 存 池 ， 通 常 称 为 后 备 高 速 缓 存 (lookaside 
cache )。 设 备 驱 动 程序 通常 不 会 涉及 这 种 使 用 后 备 高 速 缓存 的 内 存 行为 ,但 也 有 例外 ， 
Linux 2.6 中 的 USB 和 SCSI 驱动 程序 就 使 用 了 这 种 高 速 缓 存 。 


Linux 内 核 的 高 速 缓存 管理 有 时 称 为 “slab 分 配器 ”"。 因 此 ， 相 关 函 数 和 类 型 在 <linux/ 
slab.h> 中 声明 。slab 分 配器 实现 的 高 速 缓 存 具 有 kmem_cache_t 类 型 ， 可 通过 调用 
kmem_cache_create 创建 : 
kmem_cache 上 *kmem_cache_create(Const char *name, size_t size, 

Size _t offset, 

unsigned long flags, 

void (*constructor) (void *, kmem cache_t *, 

unsigned long flags), 


void (*destructor) {void *, kmem_cache 七 *， 
unsigned long flags)); 


该 函数 创建 一 个 新 的 高 速 缓存 对 象 , 其 中 可 以 容纳 任意 数目 的 内 存 区 域 , 这 些 区 域 的 大 
小 都 相同 ， 由 size 参数 指定 。 参 数 name 与 这 个 高 速 缓存 相关 联 ， 其 功能 是 保管 一 些 
信息 以 便 扎 踪 问题 , 它 通常 被 设置 为 将 要 高 速 缓存 的 结构 类 型 的 名 字 。 高 速 缓存 保留 指 
向 该 名 称 的 指针 ， 而 不 是 复制 其 内 容 , 因此 , 驱动 程序 应 该 将 指向 静态 存储 (通常 可 取 
直接 字符 串 ) 的 指针 传递 给 这 个 函数 。 名 称 中 不 能 包含 空白 。 


offset 参 数 是 页 面 中 第 一 个 对 象 的 偏 移 量 , 它 可 以 用 来 确保 对 已 分 配 的 对 象 进行 某 种 
特殊 的 对 齐 , 但 是 最 常用 的 就 是 0, 表示 使 用 默认 值 。flags 控制 如 何 完 成 分 配 ， 是 一 
个 位 掩 码 ， 可 取 的 值 如 下 : 


218 第 八 章 





SLAB_NO_REAP 
设置 这 个 标志 可 以 保护 高 速 缓存 在 系统 寻找 内 存 的 时 候 不 会 被 减少 设置 该 标志 通 
常 不 是 好 主意 ， 因 为 我 们 不 应 该 对 内 存 分 配器 的 自由 做 一 些 人 为 的 、 不 必要 的 限 
制 。 

SLAB_HWCACHE_ALIGN 
这 个 标志 要 求 所 有 数据 对 象 跟 高 速 缓存 行 (cache line) 对 齐 ; 实际 的 操作 则 依赖 
于 主机 平台 的 硬件 高 速 缓 存 布局 。 如 果 在 SMP 机 器 上 ， 高速 缓存 中 包含 有 频繁 访 
问 的 数据 项 的 话 , 则 该 选项 将 是 非常 好 的 选择 。 但 是 , 为 了 满足 高 速 绥 存 行 的 对 齐 
需求 ， 必 要 的 填 白 可 能 浪费 大 量 内 存 。 

SLAB_CACHE_DMA 
这 个 标志 要 求 每 个 数据 对 象 都 从 可 用 于 DMA 的 内 存 区 段 中 分 配 。 


还 有 一 些 标志 可 用 于 高 速 缓 存 分 配 的 调试 ,详情 请 见 mm/slab.c 文 件 。 但 通常 这 些 标志 
只 在 开发 系统 中 通过 内 核 配置 选项 而 全 局 地 设置 。 


constructor 和 destructor 参数 是 可 选 的 国 数 (但 是 不 能 只 有 destructor 而 没有 
constructor); 前 者 用 于 初始 化 新 分 配 的 对 象 ， 而 后 者 用 于 “清除 ”对 象 一 一 在 内 存 空 
间 被 整个 释放 给 系统 之 前 。 


constructor 和 destructor 很 有 用 ， 不 过 使 用 时 有 一 些 限制 。constructor 国 数 是 在 分 配 用 
于 一 组 对 象 的 内 存 时 调用 的 。 因 为 这 些 内 存 中 可 能 会 包含 好 几 个 对 象 , 所 以 constructor 
函数 可 能 会 被 多 次 调用 。 我 们 不 能 认为 分 配 一 个 对 象 后 随 之 就 会 调用 一 次 constructor。 
类 似 地 ,destructor 函 数 也 有 可 能 不 是 在 一 个 对 象 释 放 后 就 立即 被 调用 ,而 是 在 将 来 的 某 
个 未 知 的 时 间 才 被 调用 。constructor 和 destructor 可 能 允许 也 可 能 不 允许 休 卢 ， 这 要 看 
是 否 向 它们 传递 了 SLAB_CTOR_ATOMIC 标 志 (CTOR 是 constructor 的 简写 ) 。 


为 了 简便 起 见 , 程序 员 可 以 使 用 同一 个 函数 同时 作为 constructor 和 destructor 使 用 ; 当 
调用 的 是 一 个 constructor 国 数 的 时 候 , slab 分 配器 总 是 传递 SLAB_CTOR_CONSTRUCTOR 
标志 。 


一 旦 某 个 对 象 的 高 速 缓存 被 创建 ， 就 可 以 调用 kmem_cache_alloc 从 中 分 配 内 存 对 象 : 


void *kmem_cache alloc{(kmem cache_t *cache, int flags); 


这 里 、 参数 cache 是 先前 创建 的 高 速 缓存 ， 参 数 flags 和 传递 给 kmailloc 的 相同 ， 并且 
当 需 要 分 配 更 多 内 存 来 满足 kmem_cache_alloc 时 ， 高 速 缓存 还 会 利用 这 个 参数 。 


释放 一 个 内 存 对象 时 使 用 kmem_cache_free: 


void kmem_ cache_free(kmem cache_t *cache, const void *obj); 
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如 果 驱 动 程序 代码 中 和 高 速 缓存 有 关 的 部 分 已 经 处 理 完了 (一 个 典型 情况 是 模块 被 卸载 
的 时 候 )， 这 时 驱动 程序 应 该 释放 它 的 高 速 缓存 ， 如 下 所 示 : 


int kmem_cache_destroy (kmem cache._t *cache); 


这 个 释放 操作 只 有 在 已 将 从 缓存 中 分 配 的 所 有 对 象 都 归还 后 才能 成 功 。 所 以 , 模块 应 该 
检查 kmem_cache_destroy 的 返回 状态 ; 如 果 失 败 , 则 表明 模块 中 发 生 了 内 存 港 漏 (因为 
有 一 些 对 象 被 漏 掉 了 )。 


使 用 后 备 式 缓存 带 来 的 另 一 个 好 处 是 内 核 可 以 统计 高 速 缓存 的 使 用 情况 .高 速 缓存 的 使 
用 统计 情况 可 以 从 /procislabinfo 获得 。 


基于 slab 高 速 缓存 的 scull: scullc 


现在 该 举 个 例子 了 。scullc 是 scull 模块 的 一 个 缩减 版 本 ， 只 实现 了 裸 设备 一 一 即 持久 
的 内 存 区 。 与 scull 使 用 kmailoc 不 同 的 是 ，scullic 使 用 内 存 高 速 缓存 。 数 据 对 象 的 大 小 
可 以 在 编译 或 加 载 时 修改 ， 但 不 能 在 运行 时 修改 一 一 那样 需要 创建 一 个 新 的 内 存 高 速 
缓存 ， 而 这 里 不 必 处 理 那 些 不 需要 的 细节 问题 。 


sculic 是 一 个 完整 的 例子 ， 可 以 用 于 测试 slab 分 配器 。 它 和 scull 只 有 几 行 代码 的 不 同 。 
首先 ， 我 们 必须 声明 自己 的 slab 高 速 缓存 : 


/* 声明 一 个 高 速 缓 存 指针 ， 它 将 用 于 所 有 设备 */ 


kmem_cache t *scullc_cache; 


slab 高 速 缓存 的 创建 代码 如 下 所 示 (在 模块 装载 阶段 ): 
/* scullc_init: 为 我 们 的 量子 创建 一 个 高 速 缓存 */ 


scullc_cache = kmem_ cache_create("scullc", scullc_quantum, 
0，SLAB_HWCACHE_ALIGN，NULL，NULL); /* 没有 ctor/dtor */ 
zf (‘scullc cache) { 
scullc_cleanup(); 
return -ENOMEM; 
} 


下 面 是 分 配 内 存量 子 的 代码 : 


/* 使 用 内 存 高 速 缓存 来 分 配 一 个 量子 */ 
if (idptr->data[ls_pos]) { 
dptr->data[s pos] = kmem_cache alloc{scullc cache, GFP_KERNEL}; 
if (!dptr->datals. pos]) 
goto nomem; 
memset (dptr->data[s._pos)], 0, scullc_quantum); 
} 


下 面 的 代码 将 释放 内 存 : 
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for {i = 0; i < gset; i++) 
it (dptr->data[li]) 
kmem cache_freelscullc_cache, dptr->datal[il]); 


最 后 ， 在 模块 印 载 期 间 ， 我 们 必须 将 高 速 缓存 返回 给 系统 : 
/* scullc_cleanup: 释放 量子 使 用 的 高 速 缓存 */ 


if (scullc_cache) 
kmem_cache_destroyl(scullc_ cache); 
和 scull 相 比 ，scullc 的 最 主要 差别 是 运行 速度 略 有 提高 , 并 且 对 内 存 的 利用 率 更 佳 。 由 
于 数据 对 象 是 从 内 存 池 中 分 配 的 , 而 内 存 池 中 的 所 有 内 存 块 都 具有 同样 大 小 , 所 以 这 些 
数据 对 象 在 内 存 中 的 位 置 排列 达到 了 最 大 程度 的 密集 , 相反 的 , scul1 的 数据 对 象 则 会 引 
入 不 可 预测 的 内 存 碎片 。 


内 存 池 


内 核 中 有 些 地 方 的 内 存 分 配 是 不 允许 失败 的 。 为 了 确保 这 种 情况 下 的 成 功 分 配 , 内 核 开 
发 者 建立 了 一 种 称 为 内 存 池 (或 者 “mempool" ) 的 抽象 。 内 存 池 其 实 就 是 某 种 形式 的 后 
备 高 速 缓存 ， 它 试图 始终 保存 空闲 的 内 存 ， 以 便 在 紧急 状态 下 使 用 。 


内 存 池 对 象 的 类 型 为 mempool_t (在 <linux/mempool.h> 中 定义 )， 可 使 用 mempoo!_ 
create 来 建立 内 存 池 对 象 ; 
mempool_t *mempool_createlint min_nr, 
mempool_alloc_t *alloc_fn, 
mempool_free_t *free_fn, 
void *pool_data); 
min_nr 参 数 表 示 的 是 内 存 池 应 始终 保持 的 已 分 配对 象 的 最 少数 目 。 对象 的 实际 分 配 和 
释放 由 alloc_fn 和 free_fn 图 数 处 理 ， 其 原型 如 下 : 


typedef void * (mempool_alloc_t) (int gfp_mask, void *pool_data); 
typedef void (mempool. free_t) (void *element, void *pool_data); 


mempool_create 的 最 后 一 个 参数 ， 即 pool_data， 被 传人 alloc_fn 和 free_fn。 


如 有 必要 , 我 们 可 以 为 mempool 编 写 特定 用 途 的 函数 来 处 理 内 存 分 配 。 但是, 通常 我 们 

会 让 内 核 的 siab 分 配器 为 我 们 处 理 这 个 任务 。 内 核 中 有 两 个 函数 (mempool_ 
alloc_slab 和 mempool_free_slab)， 它 们 的 原型 和 上 述 内 存 池 分 配 原型 匹配 ， 并 利用 
kmem_cache_alloc 和 kmem_cache_free 处 理 内 存 分 配 和 释放 。 因此 , 构造 内 存 池 的 代码 
通常 如 下 所 示 : 


cache = kmem cache_createl(. . .); 
pool = mempool_create(MY_POOL_MINIMUM， 











分 配 内 存 ”221 





mempool_alloc_slab, mempool._free slab, 
cache); 


在 建立 内 存 池 之 后 ， 可 如 下 所 示 分 配 和 释放 对 象 : 


void *mempool_alloc (mempool_ 上 t *pool, int gfp_mask) ; 
void mempool_free{void *element, mempool_t *pool); 


在 创建 mempool 时 ， 就 会 多 次 调用 分 配 函 数 为 预先 分 配 的 对 象 创 建 内 存 池 。 之 后 ， 对 
mempool_alloc 的 调用 将 首先 通过 分 配 函 数 获得 该 对 象 ; 如 果 该 分 配 失 败 ， 就 会 返回 预 
先 分 配 的 对 象 ( 如 果 存 在 的 话 )。 如 果 使 用 mempool_free 释放 一 个 对 象 ， 则 如 果 预 先 分 
配 的 对 象 数 目 小 于 要 求 的 最 低 数目 , 就 会 将 该 对 象 保留 在 内 存 池 中 ; 否则 ,该 对 象 会 返 
回 给 系统 。 

我 们 可 以 利用 下 面 的 函数 来 调整 mempool 的 大 小 : 


int mempool_resize(mempool t *pool, int new min nr, int gftp_mask) 
如 果 对 该 函数 的 调用 成 功 , 将 把 内 存 池 的 大 小 调整 为 至 少 有 new_min_nr 个 预 分 配对 象 。 
如 果 不 再 需要 内 存 池 ， 可 使 用 下 面 的 函数 将 其 返回 给 系统 : 


void mempool_destroy (mempool_t *pool)}; 


在 销毁 mempool 之 前 ,必须 将 所 有 已 分 配 的 对 象 返回 到 内 存 池 中 ,否则 会 导致 内 核 oops。 


如 果 读 者 计划 在 自己 的 驱动 程序 中 使 用 mempool, 则 应 记 住 下 面 这 点 ; mempool 会 分 配 
一 些 内 存 块 , 空闲 且 不 会 真正 得 到 使 用 。 因此 , 使 用 mempool 很 容易 浪费 大 量 内 存 。 几 
乎 在 所 有 情况 下 , 最 好 不 使 用 mempool 而 是 处 理 可 能 的 分 配 失败 。 如 果 驱 动 程序 存在 某 
种 方式 可 以 响应 分 配 的 失败 ， 而 不 会 导致 对 系统 一 致 性 的 破坏 ， 则 应 该 使 用 这 种 方式 ， 
也 就 是 说 ， 应 尽量 避免 在 驱动 程序 代码 中 使 用 mempool。 


get_free_page 和 相关 函数 


如 果 模 块 需要 分 配 大 块 的 内 存 , 使 用 面向 页 的 分 配 技术 会 更 好 些 。 整 页 的 分 配 还 有 其 他 
优点 ， 以 后 会 在 第 十 五 章 介绍 。 
分 配 页 面 可 使 用 下 面 的 函数 ; 
get_zeroed page {unsigned int flags); 
返回 指向 新 页 面 的 指针 并 将 页 面 清 零 。 


__get_free page(unsigned int flags)}; 
类 似 于 get_zeroed_page， 但 不 清 零 页 面 。 
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__get_free_pages (unsigned int flags, unsigned int order); 
分 配 若干 (物理 连续 的 ) 页 面 , 并 返回 指向 该 内 存 区 域 第 一 个 字 节 的 指针 , 但 不 清 
零 页 面 。 


参数 flags 的 作用 和 kmalioc 中 的 一 样 ; 通常 使 用 GFP_KERNEL 或 GFP_ATOMIC, 也 
许 还 会 加 上 __GFP_DMA 标志 (申请 可 用 于 ISA 直接 内 存 访问 操作 的 内 存 ) 或 者 
__GFP_HIGHMEM 标 志 (使 用 高 端 内 存 ) ( 注 2)。 参数 order 是 要 申请 或 释放 的 页 面 数 
的 以 2 为 底 的 对 数 ( 即 log,N)。 例 如 ，order ( 阶 数 ) 为 0 表示 一 个 页 面 ，order 为 3 
表示 8 个 页 面 。 如 果 order 太 大 ， 而 又 没有 那么 大 的 连续 区 域 可 以 分 配 ， 就 会 返回 失 
败 。get_order 国 数 使 用 一 个 整数 参数 ， 可 根据 宿主 平台 上 的 大 小 (必须 是 2 的 需 ) 返回 
order 值 。 可 允许 的 最 大 order 值 是 10 或 者 11 (对 应 于 1024 或 2048 个 页 ), 这 依赖 
于 体系 结构 。 但 是 , 相 比 具有 大 量 内 存 的 刚刚 启动 的 系统 而 言 , 以 阶 数值 为 10 进 行 分 配 
而 成 功 的 机 会 很 小 。 


如 果 读 者 对 此 好 奇 , /proc/buddyinfo 可 告诉 你 系统 中 每 个 内 存 区 段 上 每 个 阶 数 下 可 获得 
的 数据 块 数目 。 


当 程 序 不 再 需要 使 用 页 面 时 , 它 可 以 使 用 下 列 隔 数 之 一 来 释放 它们 。 第 一 个 函数 是 一 个 
宏 ， 展 开 后 就 是 对 第 二 个 函数 的 调用 : 


void free_page(unsigned long addr); 
void free_ pages{unsigned long addr, unsigned long order); 


如 果 试 图 释放 和 先前 分 配 数目 不 等 的 页 面 , 内 存 映射 关 系 就 会 被 破坏 , 随后 系统 就 会 出 
错 。 


值得 强调 的 是 , 只 要 符合 和 kmalloc 同样 的 规则 , 8et_ 广 ee_pages 和 其 他 国 数 可 以 在 任何 
时 间 调 用 .。 某 些 情况 下 函数 分 配 内 存 时 会 失败 , 特别 是 在 使 用 了 GFP_ATOMIC 的 时 候 。 
因此 ， 调 用 了 这 些 函 数 的 程序 在 分 配 出 错时 都 应 提供 相应 的 处 理 。 


尽管 kmalloc(GFP_KERNEL) 在 没有 空闲 内 存 时 有 时 会 失败 , 但 内 核 总 会 尽 可 能 满足 这 
个 内 存 分 配 请 求 。 因 此 ， 如 果 分 配 太 多 内 存 ， 系 统 的 响应 性 能 就 很 容易 降下 来 。 例 如 ， 
如 果 往 scull 设 备 写 和 大量 数据 , 计算 机 可 能 就 会 死 掉 ; 当 系统 为 满足 kmalloc 分 配 请 求 
而 试图 换 出 尽 可 能 多 的 内 存 页 时 ,就 会 变 得 很 慢 。 所 有 资源 都 被 贪 禁 的 设备 所 吞噬 ， 计 
算 机 很 快 就 变 的 无 法 使 用 了 ; 此 时 甚至 已 经 无 法 为 解决 这 个 问题 而 生成 新 的 进程 。 我 们 
没有 在 scul! 模块 中 提 到 这 个 问题 ， 因 为 它 只 是 个 例子 ， 并 不 会 真正 在 多 用 户 系统 中 使 


注 2: 尽管 alloc_pa8ges ( 稍 后 讲述 ) 实际 应 该 用 于 分 配 高 端 内 存 页 ， 但 出 于 某 些 原因 的 考虑 ， 
我 们 将 在 第 十 五 章 对 其 进行 讲述 。 
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用 。 但 作为 一 个 编程 者 必须 要 小 心 ， 因 为 模块 是 特权 代码 ， 会 带 来 新 的 系统 安全 漏洞 ， 
例如 很 可 能 会 造成 DoS (denail-of-service ， 拒 绝 服务 攻击 ) 安全 漏洞 。 


使 用 整 页 的 scull: scullp 


为 了 实际 测试 页 面 分 配 ， 我们 编写 了 sculip 模块 。 就 像 前 面 介绍 的 scullc 一 样 ， 它 是 一 
个 缩减 了 的 scull。 


scultp 分 配 的 内 存 数量 是 一 个 或 数 个 整 页 : scullp_order 变 其 默认 为 0, 但 可 以 在 编译 
或 加 载 时 更 改 。 


下 列 代码 说 明了 它 如 何 分 配 内 存 : 


/* 下 面 分 配 单个 明子 */ 
if (!Adptr->datals_ pos]) { 
dptr->data{s_pos] = 
(void *)_ _get_free_pages (GFP_ KERNEL, dptr->order); 
if (!dptr->data[s_pos]) 
goto nomem; 
memset (dptr->data[s_pos], 0, PAGE_SIZE << dptr->order); 
} 


sculip 中 释放 内 存 的 代码 如 下 : 
/* 这 段 代码 释放 整个 量子 集 */ 


for (i = 0; i < Gsety i++) 
if (dptr->datalil]) 
free_pages( {unsigned long) (dptr->datal[lil), 
dptr->order); 


从 用 户 的 角度 看 , 可 以 感觉 到 的 差别 就 是 速度 快 了 一 些 , 并 且 内 存 利用 率 更 高 了 , 因为 


不 会 有 内 部 的 内 存 碎 片 。 我 们 运行 了 测试 程序 ， 把 4MB 的 数据 从 scul10 拷贝 到 sculll， 
然后 再 从 scullp0 拷贝 到 sculip1; 结果 表明 处 理 器 在 内 核 空间 的 使 用 率 有 所 提高 。 


但 性 能 的 提高 并 不 多 ， 因 为 kmalioc 已 经 运行 得 很 快 。 基 于 页 的 分 配 策略 的 优点 实际 不 
在 速度 上 ， 而 在 于 更 有 效 地 使 用 了 内 存 。 按 页 分 配 不 会 浪费 内 存 空间 ， 而 用 kmaalioc 函 
数 则 会 因 分 配 粒度 的 原因 而 浪费 一 定数 量 的 内 存 。 


但 是 使 用 _get_free_page 函数 的 最 大 优点 是 这 些 分 配 的 页 面 完 全 属于 我 们 自己 , 而且 
在 理论 上 可 以 通过 适当 地 调整 页 表 将 它们 合并 成 一 个 线性 区 域 。 例如, 可 以 允许 用 户 进 
程 对 这 些 单一 但 互 不 相关 的 页 面 分 配 得 到 的 内 存 区 域 进行 mmap。 我 们 将 在 第 十 五 章 中 
讨论 这 种 操作 ， 届 时 将 演示 scullp 如 何 提 供 内 存 映 射 ， 而 scull 无 法 提供 这 种 操作 。 
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alloc_pages 接口 


为 完整 起 见 , 本 节 将 介绍 内 存 分 配 的 另 一 个 接口 , 但 在 第 十 五 章 才 会 使 用 这 个 接口 。 现 
在 , 我 们 只 要 知道 struct page 是 内 核 用 来 描述 单个 内 存 页 的 数据 结构 就 足够 了 。 我 
们 将 看 到 ， 内核 中 有 许多 地 方 需要 使 用 page 结构 、 尤 其 在 需要 使 用 高 端 内 存 (高 端 内 
存在 内 核 空 间 没 有 对 应 不 变 的 地 址 ) 的 地 方 。 


Linux 页 分 配器 的 核心 代码 是 称 为 alioc_pages_node 的 函数 : 


struct page *alloc pages node(int nid, unsigned int flags, 
unsigned int order}; 


这 个 函数 具有 两 个 变种 {它们 只 是 简单 的 宏 )， 大 多 数 情况 下 我 们 使 用 这 两 个 宏 : 


struct page *alloc_pages (unsigned int flags, unsigned int order):; 
Struct page *alloc page{unsigned int flags); 


核心 函数 alioc_pages_node 要 求 传 入 三 个 参数 。nid 是 NUMA 和 节点 的 ID 号 ( 注 3), 表 
示 要 在 其 中 分 配 内 存 ，flags 是 通常 的 GFP_ 分 配 标志 ,而 order 是 要 分 配 的 内 存 大 
小 。 该 函数 的 返回 值 是 指向 第 一 个 page 结构 ( 可 能 返回 多 个 页 ) 的 指针 ， 它 描述 了 已 
分 配 的 内 存 ; 或 者 在 失败 时 返回 NULL。 


alloc_pages 通过 在 当前 的 NUMA 节点 上 分 配 内 存 而 简化 了 alloc_pages_node 函数 ， 
它 将 numa_node_id 的 返回 值 作为 nia 参数 而 调用 了 alloc_pages_node 国 数 。 另 外 ， 
alloc_page 图 数 显然 忽略 了 ordez 参数 而 只 分 配 单个 页 面 。 


为 了 释放 通过 上 述 途 径 分 配 的 页 面 ， 我 们 应 使 用 下 面 的 函数 : 


void _ _free pagelstruct page *page); 

void _ _free pages(struct page *page, unsigned int order); 
void free_hot_page(struct page *page),; 

void free _ cold pagel{lstruct page *page); 


如 果 读 者 知道 某 个 页 面 中 的 内 容 是 否 驻 留 在 处 理 器 高 速 缓 存 中 ， 则 应 该 使 用 


free_hot_page (用 于 驻 留 在 高 速 缓存 中 的 页 ) 或 者 free_cold_page 和 内 核 通信 。 这 个 信 
息 可 帮助 内 存 分 配器 优化 内 存 的 使 用 。 


注 3: NUMA 计算 机 是 多 处 理 器 系统 ,其 中 的 内 存 对 特定 处 理 器 组 (节点 ) 来 讲 是 “本 地 的 ”。 
访问 本 地 内 看 要 比 访问 非 本 地 内 存 快 。 在 这 类 系统 中 ， 在 正确 节点 上 的 内 存 分 本 非常 重 
要 。 但 是 驱动 程序 作者 通常 不 用 担心 NUMA 问题 。 
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vmalloc 及 其 辅助 函数 


下 面 要 介绍 的 内 存 分 配 函 数 是 vmalloc， 它 分 配 虚 拟 地 址 空间 的 连续 区 域 。 尽 管 这 段 区 
域 在 物理 上 可 能 是 不 连续 的 (要 访问 其 中 的 每 个 页 面 都 必须 独立 地 调用 函数 
alloc_page), 内 核 却 认为 它们 在 地 址 上 是 连续 的 。vmalloc 在 发 生 错误 时 返回 0 (NULL 
地 址 ), 成 功 时 返回 一 个 指针 , 该 指针 指向 一 个 线性 的 、 大 小 最 少 为 size 的 线性 内 存 区 
域 。 


我 们 在 这 里 描述 vmalloc 的 原因 是 ， 它 是 Linux 内 存 分 配 机 制 的 基础 。 但 是 ， 我 们 要 注 
意 在 大 多 数 情 况 下 不 鼓励 使 用 vmalioc。 通过 malioc 获 得 的 内 存 使 用 起 来 效率 不 高 , 而 
且 在 某 些 体系 架构 上 , 用 于 vmalloc 的 地 址 空间 总 量 相 对 较 小 。 如果 希望 将 使 用 vmalioc 
的 代码 提交 给 内 核 主线 代码 , 则 可 能 会 受到 冷遇 。 如 果 可 能 , 应 该 直接 和 单个 的 页 面 打 
交道 ， 而 不 是 使 用 vmalloc。 


虽然 这 么 说 ,但 我 们 还 是 要 看 看 如 何 使 用 vmalloc。 该 函数 的 原型 及 其 相关 函数 
(ioremap， 并 不 是 严格 的 分 配 函 数 ， 将 在 本 节 后 面 讨论 ) 如 下 所 示 : 


#include <linux/vmalloc.h> 


void *vmalloc (unsiqned long size); 

void vfree(lvoid * addr); 

void *ioremap (unsigned long offset, unsigned long size); 
void iounmap (void * addr); 


要 强调 的 是 ,由 kmalloc 和 __get_free_pages 返 回 的 内 存 地 址 也 是 虚拟 地 址 ， 基 实际 值 


仍然 要 由 MMU ( 内存 管理 单元 , 通常 是 CPU 的 组 成 部 分 ) 处 理 才 能 转 为 物理 内 存 地 址 
( 注 4)。vmalloc 在 如 何 使 用 硬件 上 没有 区 别 ， 区 别 在 于 内 核 如 何 执行 分 配 任务 上 。 


kmalloc 和 __get_free_pages 使 用 的 (虚拟 ) 地 址 范围 与 物理 内 存 是 一 一 对 应 的 ， 可 能 
会 有 基于 常量 PAGE_OFFSET 的 一 个 偏 移 。 这 两 个 函数 不 需要 为 该 地 址 段 修 改 页 表 。 但 另 
一 方面 , vmalloc 和 ioremap 使 用 的 地 址 范围 完全 是 虚拟 的 , 每 次 分 配 都 要 通过 对 页 表 的 
适当 设置 来 建立 (虚拟 ) 内 存 区 域 。 


可 以 通过 比较 内 存 分 配 函 数 返 回 的 指针 来 发 现 这 种 差别 。 在 某 些 平台 上 (如 x86 )， 
vmalloc 返 回 的 地 址 仅仅 比 kmalloc 返 回 的 地 址 高 一 些 ; 而 在 其 他 平台 上 (如 MIPS 和 IA- 


-一 一 


注 4: 实际 上 ， 某 些 体 系 痛 构 定 义 了 保留 的 “虚拟 ”地 址 范围 ， 用 于 寻 扯 物理 内 存 。 遇 到 这 种 
情况 时 ，Linux 内 核 会 利用 这 种 特性 内核 和 _ _8et_ 广 ee_pages 地 址 均 位 于 这 种 内 存 范 
图 。 其 中 的 区 别 对 设备 驱动 程序 是 连 明 的 ， 对 不 直接 涉及 内 存 管理 子 系统 的 其 他 内 核 代 
码 来 说 也 是 延明 的 。 
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64), 它们 就 完全 属于 不 同 的 地 址 范围 了 。vmalloc 可 以 获得 的 地 址 在 VMALLOC_START 
到 VMALLOC_END 的 范围 中 。 这 两 个 符号 都 在 <asm/pgtable.h> 中 定义 。 


用 vmalioc 分 配 得 到 的 地 址 是 不 能 在 微 处 理 器 之 外 使 用 的 ,因为 它们 只 在 处 理 器 的 内 存 
管理 单元 上 才 有 意义 。 当 驱动 程序 需要 真正 的 物理 地 址 时 ( 像 外 设 用 以 哎 动 系统 总 线 的 
DMA 地 址 ) ， 就 不 能 使 用 vmalioc 了 。 使 用 vmalioc 函数 的 正确 场合 是 在 分 配 一 大 块 连 
续 的 、 只 在 软件 中 存在 的 、 用 于 缓冲 的 内 存 区 域 的 时 候 。 注 意 vmaitoc 的 开销 要 比 
__get_free_pages 大 ， 因 为 它 不 但 获取 内 存 ， 还 要 建立 页 表 。 因 此 ， 用 vmalioc 函数 分 
配 仅仅 一 页 的 内 存 空 间 是 不 值得 的 。 


使 用 vmalioc 污 数 的 一 个 例子 函数 是 creatre_module 系统 调用 、 它 利用 vmalioc 函数 来 获 
取 装 载 模块 所 需 的 内 存 空间 。 在 调用 insmod 来 重 定位 模块 代码 后 ， 接 着 会 调用 
copy_from_user 函数 把 模块 代码 和 数据 复制 到 分 配 而 得 的 空间 内 。 这样, 模块 看 来 像 是 
在 连续 的 内 存 空 间 内 .但 通过 检查 /proc/ksyms 文 件 就 能 发 现 模块 导出 的 内 核 符号 和 内 核 
本 身 导 出 的 符号 分 布 在 不 同 的 内 存 范 围 上 。 


用 vmalloc 分 配 得 到 的 内 存 空间 要 用 vfree 函数 来 释放 ， 这 就 像 要 用 kfree 函数 来 释放 
kmalloc 函数 分 配 得 到 的 内 存 空间 一 样 。 


和 vmalloc 一 样 ，ioremap 也 建立 新 的 页 表 , 但 和 vmalioc 不 同 的 是 ，ioremap 并 不 实际 
分 配 内 存 。ioremap 的 返回 值 是 一 个 特殊 的 虚拟 地 址 ， 可 以 用 来 访问 指定 的 物理 内 存 区 
域 ， 这 个 虚拟 地 址 最 后 要 调用 iounmap 来 释放 掉 。 


ioremap 更 多 用 于 映射 (物理 的 ) PCI 缓 冲 区 地 址 到 (虚拟 的 ) 内 核 空 间 。 例如， 可 以 用 
来 访问 PCI 视 频 设 备 的 帧 缓冲 区 ; 该 缓冲 区 通常 被 映射 到 高 物理 地 址 , 超出 了 系统 初始 
化 时 建立 的 页 表 地 址 范围 。PCI 的 详细 内 容 将 在 第 十 二 章 中 讨论 。 


要 注意 ,为 了 保持 可 移植 性 , 不 应 把 ioremap 返回 的 地 址 当 作 指向 内 存 的 指针 而 直接 访 
问 。 相 反 ， 应 该 使 用 readb 或 其 他 LO 函数 (在 第 九 章 “使 用 1/O 内 存 ” 一 节 中 介绍 )。 
这 是 因为 , 在 如 Alpha 的 一 些 平台 上 ， 由 于 PCI 规 范 和 Alpha 处 理 器 在 数据 传输 方式 上 
的 差异 ， 不 能 直接 把 PCI 内 存 区 映射 到 处 理 器 的 地 址 空间 。 


ioremap 和 vmalloc 函数 都 是 面向 页 的 (它们 都 会 修改 页 表 ), 因此 重新 定位 或 分 配 的 内 
存 空间 实际 上 都 会 上 调 到 最 近 的 一 个 页 边界 。ioremap 通过 把 重新 映射 的 地 址 向 下 下 调 
到 页 边界 ， 并 返回 在 第 一 个 重新 映射 页 面 中 的 偏 移 量 的 方法 模拟 了 不 对 齐 的 映射 。 


vmalloc 函数 的 一 个 小 缺点 是 它 不 能 在 原子 上 下 文中 使 用 ， 因 为 它 的 内 部 实现 调用 了 
kmalloc(GFP_KERNEL) 来 获取 页 表 的 存储 空间 ， 因 而 可 能 休 距 。 但 这 不 是 什么 问题 
一 一 如果 __get_free_page 函数 都 还 不 能 满足 中 断 处 理 例 程 的 需求 的 话 ， 那 应 该 修改 软 
件 的 设计 了 。 
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使 用 虚拟 地 址 的 scull: scullv 


scully 模块 使 用 了 vmalioc。 和 和 scullp 一 样 ， 这 个 模块 也 是 scull 的 一 个 缩减 版 本 ， 只 是 
使 用 了 不 同 的 分 配 国 数 来 获取 设备 用 于 储存 数据 的 内 存 空 间 。 


该 模块 每 次 分 配 16 页 的 内 存 。 这 里 的 内 存 分 配 使 用 了 较 大 的 数据 块 以 获取 比 sculip 更 好 
的 性 能 , 并 且 展 示 了 为 什么 使 用 其 他 分 配 技术 会 更 耗 时 。 用 __get_free_pages 旱 数 来 分 
配 一 页 以 上 的 内 存 空间 容易 出 错 , 而 且 即 使 成 功 了 也 比较 慢 。 在 前 面 我 们 已 经 看 到 , 用 
vmalloc 分 配 几 个 页 时 比 其 他 函数 要 快 一 些 ， 但 由 于 存在 建立 页 表 的 开销 ， 所 以 当 只 分 
配 一 页 时 却 会 慢 一 些 。scullv 设计 得 和 scullp 很 相似 。order 参数 指定 每 次 要 分 配 的 内 
空间 的 “ 阶 数 ”、 上 默认 为 4。scullv 和 scullp 的 唯一 差别 是 在 分 配 管 理 上 。 下 面 的 代码 
用 vmalloc 获取 新 内 存 : 


/* 使 用 虚拟 地 址 分 配 一 个 量子 */ 
it (1QqQptr->data[s_pos]l) { 
dptr->data[s_pos] = 
(void *)vmalloc(PRAGE_SIZE << dptr->order); 
if (!dptr->datals_posl) 
goto nomem; 
memset (dptr->data[s_pos], 0, PAGE_SIZE << dptr->order); 
} 


这 段 代码 释放 内 存 : 
/* 县 放 节 子 集 */ 


for (i = 0; i < qset; i++) 
if (dptr->data[lil]) 
vfree(dptr->data[i]); 


如 果 在 编译 这 两 个 模块 时 都 启用 了 调试 ， 就 可 以 通过 读 取 它 们 在 /proc 下 创建 的 文件 来 
查看 数据 分 配 过 程 。 下 面 的 快照 取 自 一 个 x86_64 系统 : 


salma% cat /tmp/bigfile > /dev/scullp0; head -5 /proc/scullpmem 
Device 0: qset 500, order 0, sz 1535135 
item at 000001001847da58, qset at 000001001db4c000 
0:1001db55000 
1:1003dlc7000 


salma% cat /tmp/bigfile > /dev/scullv0; head -5 /proc/sculLvmem 


Device 0: qset S500, order 4, sz 1535135 
item at 000001001847da58, qset at 0000010013dea000 
0:fftftftft0001177000 
1:ffffff0001188000 
The following output, instead, came from an x86 systenm: 
rudo% cat /tmp/bigfile > /dev/scullp0; head -5 /proc/scullpmem 


Device 0: gset 500, order 0, sz 1535135 
item at ccf80e00, qset at cf7b9800 
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0O:ccc58000 
l:cccdd000 


rudo% cat /tmp/bigfile > /dev/scullv0: head -5 /proc/scullvmem 


Device 0: qset S500, order 4, sz 1535135 
item at cfab4800, gqset at cf8e4000 
0:d087a000 
1:d08d2000 


这 些 数 值 说 明了 二 者 行为 上 的 差别 。 在 x86_64 平 台 上 ， 物 理 地 址 和 虚拟 地 址 被 映射 到 
完全 不 同 的 地 址 范围 {0x100 和 Oxffffff00), 而 在 x86 平 台 上 ,vmalioc 返 回 的 虚拟 地 址 
就 在 用 于 映射 物理 内 存 的 地 址 之 上 。 


per-CPU 变量 


per-CPU (每 CPU) 变量 是 2.6 内 核 的 一 个 有 趣 特性 。 当 建立 一 个 per-CPU 变量 时 ， 系 
统 中 的 每 个 处 理 器 都 会 拥有 该 变量 的 特有 副本 。 这 看 起 来 有 些 奇怪 , 但 它 有 其 优点 。 对 
per-CPU 变量 的 访问 (几乎 ) 不 需要 锁定 , 因为 每 个 处 理 器 在 其 自己 的 副本 上 工作 。 per 
CPU 变量 还 可 以 保存 在 对 应 处 理 器 的 高 速 缓存 中 , 这 样 , 就 可 以 在 频繁 更 新 时 获得 更 好 
的 性 能 。 


关于 per-CPU 变量 使 用 的 例子 可 见于 网 络 子 系 统 中 。 内 核 维 护 着 大 量 计数 器 , 这 些 计数 
器 跟踪 已 接收 到 的 各 类 数据 包 数 量 , 而 这 些 计数 器 每 秒 可 能 被 更 新 上 千 次 。 网 络 子 系统 
的 开发 者 将 这 些 统计 用 的 计数 器 放 在 了 per-CPU 变量 中 , 这 样 , 他 们 就 不 需要 处 理 缓存 
和 锁定 问题 , 而 更 新 可 在 不 用 锁 的 情况 下 快速 完成 。 在 用 户 空间 偶尔 请 求 这些 计 数 器 的 
值 时 ， 只 需 将 每 个 处 理 器 的 版 本 相 加 并 返回 合计 值 即 可 。 


用 于 per-CPU 变量 的 声明 可 见于 <linux/percpu.h> 中 。 要 在 编译 期 间 创 建 一 个 per-CPU 
变量 ， 可 使 用 下 面 的 宏 : 

DEFINE_PER_CPU(type，name) ; 
如 果 该 变量 ( 称 为 name) 是 一 个 数组 ， 需 在 type 中 包含 数组 的 维 数 。 这 样 ， 具 有 三 
个 整数 的 per-CPU 数组 变量 可 通过 下 面 的 语句 建立 : 

DEFINE_PER_CPU(int([3], my_percpu_array); 
对 per-CPU 变量 的 操作 几乎 不 使 用 任何 锁定 即 可 完成 。 但 要 记得 2.6 内 核 是 抢占 式 的 ; 
也 就 是 说 ， 当 处 理 器 在 修改 某 个 per-CPU 变量 的 临界 区 中 间 , 可 能 会 被 抢占 ,因此 应 该 


避免 这 种 情况 的 发 生 。 我 们 还 应 该 避免 进程 正在 访问 一 个 per-CPU 变 量 时 被 切换 到 另 一 
个 处 理 器 上 运行 。 为 此 ， 我 们 应 该 显 式 地 调用 ge!_cpu_var 宏 访 问 某 给 定 变量 的 当前 处 
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理 器 副本 , 结束 后 调用 put_cpu_var。 对 get_cpu_var 的 调用 将 返回 当前 处 理 器 变量 版 本 
的 lvalue 值 ， 并 禁止 抢占 。 因 为 返回 的 是 lvalue， 因 此 可 直接 赋值 或 者 操作 。 例 如 ， 网 
络 代码 对 一 个 计数 器 的 递增 使 用 了 下 面 的 两 条 语句 : 


get_cpu_var(sockets_ in use)++; 
put_cpu_ var(sockets_in use}; 


我 们 可 以 使 用 下 面 的 宏 访问 其 他 处 理 器 的 变量 副本 : 


per_cpul(variable, int cpu_id); 


如 果 我 们 要 编写 的 代码 涉及 到 多 个 处 理 器 的 per-CPU 变量 , 这 时 则 需要 采用 某 种 锁定 机 
制 来 确保 访问 安全 。 


动态 分 配 per-CPU 变量 也 是 可 能 的 。 这 时 ， 应 使 用 下 面 的 函数 分 配 变量 : 

void *alloc_percpu (type); 

void *. _alloc percpul(size_t size, size t align); 
在 大 多 数 情况 下 可 使 用 alloc_percpu 完 成 分 配 工 作 ; 但 如 果 需 要 特定 的 对 齐 , 则 应 该 调 
用 __alloc_percpu 函数 。 不 管 使 用 哪个 函数 ， 可 使 用 free_percpu 将 per-CPU 变量 返回 
给 系统 。 对 动态 分 配 的 per-CPU 变量 的 访问 通过 per_cpu_pir 完成 : 


per_cpu_ptr {void *per_cpu_var, int cpu_id); 


这 个 宏 返 回 指向 对 应 于 给 定 cpu_id 的 per._cpu_var 版 本 的 指针 。 如 果 打 算 读 取 该 变 
量 的 其 他 CPU 版 本 , 则 可 以 引用 该 指针 并 进行 相关 操作 。 但 是 , 如 果 正 在 操作 当前 处 理 
器 的 版 本 , 则 应 该 首先 确保 自己 不 会 被 切换 到 其 他 处 理 器 上 运行 。 如 果 对 per-CPU 变量 
的 整个 访问 发 生 在 拥有 某 个 自 旋 锁 的 情况 下 , 则 不 会 出 现任 何 问题 。 但 是 , 在 使 用 该 变 
量 的 时 候 通 常 需要 使 用 get_cpx 来 阻塞 抢占 。 这 样 ， 使 用 动态 per-CPU 变量 的 代码 类 似 
下 面 所 示 : 

int cpu; 

cpu = get_cpul() 

ptr = per_cpu_ptr{per_cpu_var, cpu); 


/* 使 用 ptr */ 
Put_cpu{(); 


如 果 使 用 编译 期 间 的 per-CPU 变量 , 则 get_cpu_var 和 put_cpu_var 宏 将 处 理 这 些 细节 。 
但 动态 的 per-CPU 变量 需要 更 明确 的 保护 。 
Per-CPU 变量 可 以 导出 给 模块 ， 但 是 必须 使 用 上 述 宏 的 特殊 版 本 : 


EXPORT_PER_CPU_SYMBOL {per_cpu var); 
EXPORT_PER_CPU_SYMBOL_GPL (Per _cpu_var) ; 
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要 在 模块 中 访问 这 样 一 个 变 甚 ， 则 应 将 其 声明 如 下 : 
DECLRARPR_PFR_CPUItYyPe，name) ; 


使 用 DECLARE_PER_CPU (而 不 是 DEFINE_PER_CPU), 将 告诉 编译 器 要 使 用 一 个 外 
部 引用 。 


如 果 读 者 打算 使 用 per-CPU 变量 来 建立 简单 的 整数 计数 器 ， 可 参 基 <linux/percpu_ 
counter.h> 中 已 封装 好 的 实现 。 最 后 要 注意 ,在 某 些 体系 架构 上 ，per-CPU 变量 可 使 用 
的 地 址 空间 是 受 限 制 的 。 因 此 ， 如 果 要 创建 per-CPU 变量 ， 则 应 该 保持 这 些 变量 较 小 。 


获取 大 的 缓冲 区 


我 们 在 前 面 的 小 节 中 提 到 , 大 的 、 连续 内 存 缓冲 区 的 分 配 易 流 于 失败 。 系 统 内 存 会 随 着 
时 间 的 流逝 而 碎片 化 , 这 导致 无 法 获得 真正 的 大 内 存 区域 。 因 为 ,不 需要 大 的 缓冲 区 也 
可 以 有 其 他 途径 来 完成 自己 的 工作 ,因此 内 核 开 发 者 并 没有 将 大 缓冲 区 分 配 工 作 作为 高 
优先 级 的 任务 来 计划 。 在 试图 获得 大 内 存 区 之 前 ， 我 们 应 该 仔细 考虑 其 他 的 实现 途径 。 
到 目前 为 止 ， 执 行 大 的 IO 操作 的 最 好 方式 是 通过 离散 /聚集 操作 ， 我 们 将 在 第 十 章 的 
“离散 / 诊 集 映射 ”中 讨论 这 种 操作 。 


在 引导 时 获得 专用 缓冲 区 


如 果 的 确 需要 连续 的 大 块 内 存 用 作 缓 冲 区 ,就 最 好 在 系统 引导 期 间 通过 请 求 内 存 来 分 配 。 
在 引导 时 就 进行 分 配 是 获得 大 量 连续 内 存 页 面 的 唯一 方法 , 它 绕 过 了 _ _get _free_pages 
函数 在 缓冲 区 大 小 上 的 最 大 尺寸 和 固定 粒度 的 双重 限制 。 在 引导 时 分 配 缓冲 区 有 点 
“ 脏 ”, 因为 它 通过 保留 私有 内 存 池 而 跳 过 了 内 核 的 内 存 管理 策略 。 这 种 技术 比较 粗暴 也 
很 不 灵活 ， 但 也 是 最 不 容易 失败 的 。 显 然 ,， 模 块 不 能 在 引导 时 分 配 内 存 ， 而 只 有 直接 链 
接 到 内 核 的 设备 驱动 程序 才能 在 引导 时 分 配 内 存 。 


还 有 一 个 值得 注意 的 问题 是 ,对 于 普通 用 户 来 说 引导 时 的 分 配 不 是 一 个 切实 可 用 的 选项 ， 
因为 这 种 机 制 只 对 链接 到 内 核 映 像 中 的 代码 可 用 。 要 安装 或 替换 使 用 了 这 种 分 配 技术 的 
驱动 程序 ， 就 只 能 重新 编译 内 核 并 重启 计算 机 。 


内 核 被 引导 时 , 它 可 以 访问 系统 所 有 的 物理 内 存 , 然后 调用 各 个 子 系统 的 初始 化 函数 进 
行 初始 化 , 它 允 许 初始 化 代码 分 配 私有 的 缓冲 区 , 同时 减少 了 留 给 常规 系统 操作 的 RAM 
数量 。 


通过 调用 下 列 函 数 之 一 则 可 完成 引导 时 的 内 存 分 配 : 
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#include <linux/bootmem.h> 

void *alloc_bootmem{(unsigned long size); 

void *alloc_ bootmem_low({(unsigned long size); 

void *allioc bootmem_ pages (unsigned long size)}; 
void *alloc_bootmem_low_pages (unsigned long size); 


这 些 函 数 要 么 分 配 整个 页 ( 苦 以 _pages 结尾 ) ， 要 么 分 配 不 在 页 面 边界 上 对 齐 的 内 存 
人 区。 除非 使 用 具有 _1ow 后 组 的 版 本 ， 否 则 分 配 的 内 存 可 能 会 是 高 端 内 存 。 如 果 我 们 正 
在 为 设备 驱动 程序 分 配 缓 冲 区 ， 则 可 能 希望 将 其 用 于 DMA 操作 ,而 高 端 内 存 并 不 总 是 
支持 DMA 操作 ; 这 样 ， 我 们 可 能 需要 使 用 上 述 函 数 的 一 个 _low 变种 。 


很 少 会 释放 引导 时 分 配 的 内 存 , 而 且 也 没有 任何 办 法 可 将 这 些 内 存 再 次 拿 回 。 但 是 ,内 
核电 提供 了 一 种 释放 这 种 内 存 的 接口 : 


void free_bootmem(tunsigned long addr, unsigned long size); 


注意 ， 通 过 上 述 函 数 释放 的 部 分 页 面 不 会 返回 给 系统 一 一 但是， 如 果 我 们 使 用 这 种 技 
术 ， 则 其 实 已 经 分 配 得 到 了 一 些 完整 的 页 面 。 


如 果 必 须 使 用 引导 时 的 分 配 , 则 应 该 将 驱动 程序 直接 链接 到 内 核 。 关于 直接 链接 到 内 核 
的 实现 组 市 ， 可 参阅 内 核 源 代码 中 Documentation/kbuild 目录 下 的 文件 。 


快速 参考 
与 内 存 分 配 有 关 的 函数 和 符号 如 下 ; 


#include <linux/slab.h> 
void *kmalloc (size_t size, int flags); 
void kfreel(void *obj); 


最 常用 的 内 存 分 配 接口 。 


#include <linux/mm.h> 

GFP_USER 

GFP_KERNEL 

GFP_NOFS 

GFP_NOIO 

GFP_ATOMIC 
用 来 控制 内 存 分 配 执 行 方式 的 标志 , 其 排列 从 最 少 限制 到 最 多 限制 .GFP_USER 和 
GFP_KERNEL 优 先 级 允许 当前 进程 休 眼 以 满足 分 配 请 求 。 GFP_NOFS 和 GFP_NOIO 分 
别 禁用 文件 系统 操作 和 所 有 的 110 操作， 而 GFP_ATOMIC 根本 不 允许 休眠 。 
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__GFP_DMA 
__GFP_HIGHMEM 
GPEPACOLD 
__GFP_NOWARN 
——GFP_HIGH 
—__GFP_REPEAT 
——_GFP_NOFAIL 
—__GFP_NORETRY 


上 述 标志 在 分 配 内 存 时 修改 内 核 的 行为 。 
#include <linux/malloc.h> 
kmem_ cache t *kmem cache_createl(char *name, size_t size, size_t offset, 
unsigned long flags, constructor(}, destructor{)); 
int kmem_cache_destroy (kmem cache _t *cache); 
创建 和 销毁 一 个 包含 固定 大 小 内 存 块 的 slab 高 速 缓存 ,我 们 可 以 从 这 个 高 速 缓存 中 
分 配 具 有 固定 大 小 的 对 象 。 
SLAB_NO_REAP 
SLAB_ HWCACHE_ALIGN 
SLAB_CACHE_DMA 
在 创建 高 速 缓存 时 指定 的 标志 。 


SLAB_CTOR_ATOMIC 
SLAB_CTOR_CONSTRUCTOR 
可 由 分 配器 传递 给 constructor 和 destructor 函数 的 标志 。 


void *lamem_cache_alloc (kmem cache t *cache, int flags); 
void kmem, cache_free(kmem, cache_t *cache, const void *obj); 
从 高 速 缓 存 中 分 配 和 释放 一 个 对 象 。 
/procislabinfo 
包含 有 slab 高 速 缓存 使 用 统计 信息 的 虚拟 文件 。 


#include <linux/mempool.h> 
mempool_t *mempool_create{int min nr, mempool_alloc_t *alloc_fn, 
mempool_free_t *free_fn, void *data); 
void mempool_destroy (mempool_t *pool); 
用 于 创建 内 存 池 的 函数 。 内 存 池 通 过 保留 预 分 配 项 的 “急用 链表 ”来 避免 内 存 分 配 
的 失败 。 
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void *mempool_alloc (mempool_t *pool, int gfp_mask); 
void mempool_free{void *element, mempool_t *pool); 


从 内 存 池 分 配 或 者 释放 对 象 的 函数 。 


unsigned long get zeroed pagelint flags); 

unsigned long _ _get_free_pagelint flags)}); 

unsigned long _ _get_ free pages(int flags, unsigned long order); 
面向 页 的 分 配 函 数 。get_zeroed_page 返回 单个 已 清 零 的 页 面 ,而 其 他 所 有 调用 不 
进行 页 面 的 初始 化 。 

int get_order (unsigned long size); 
根据 PAGE_SIZE 返 回 当 前 平台 上 和 size 关联 的 分 配 阶 数 。 该 函数 的 参数 必须 是 2 
的 矫 ， 而 返回 值 至 少 为 0。 

void free_page (unsigned long addr); 

void free_pages (unsigned long addr, unsigned long order); 


这 些 函 数 释放 面向 页 分 配 的 内 存 。 
struct page *alloc pages node (int nid, nsigned int flags, unsigned int order); 


struct page *alloc_pages (unsigned int flags, unsigned int order); 
struct page *alloc_page (unsigned int flags); 


Linux 内 核 中 最 底层 页 分 配器 的 所 有 变种 。 


void __free pagel(struct page *page); 

void __free pages(struct page *page, unsigned int order); 
void free_hot_page{struct page *page); 

void free_cold pagelstruct page *page); 


用 于 释放 由 alioc_page 的 某 种 形式 分 配 的 页 的 不 同 函 数 。 


#include <linux/vmalloc.h> 

void * vmalloc (unsigned long size); 

void vfree(void * addr}); 

#include <asm/io.h> 

void * ioremap(unsigned long offset, unsigned long size); 

void iounmap (void *adgr); 
这 些 函 数 分 配 或 释放 连续 的 虚拟 地 址 空间 。ioremap 通过 虚拟 地 址 访问 物理 内 存 ， 
而 vmalloc 分 配 空 闪 页 面 。 使 用 ioremap 映 射 的 区 域 用 iounmap 释放 , 而 从 vmalloc 
获得 的 页 面 用 vfree 释放 。 
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#include <linux/percpu.h> 

DEFINE PER_CPU(type, name); 

DECLARE_PER_CPU{(type, name); 
定义 和 声明 per-CPU 变量 的 宏 。 


per_cpulvariable, int cpu_igd) 

get_cpu_var (variable) 

put_cpu_var (variable) 
用 于 访问 静态 声明 的 per-CPU 变量 的 宏 。 

void *alloc_percpul(type); 

void *_ _alloc percpul(size_t size, size_t align); 

void free_percpul(lvoid *variable); 
执行 per-CPU 变量 的 运行 时 分 配 和 释放 的 函数 。 

int get_cpu(); 

void put_cpu{(); 

per_cpu_ptr (void *variable, int cpu_id) 
get_cpu 获得 对 当前 处 理 器 的 引用 (因此 避免 抢占 以 及 切换 到 其 他 处 理 器 ) 并 返回 
处 理 器 的 ID 号 ; 而 put_cpu 返 回访 引用。 为 了 访问 动态 分 配 的 per-CPU 变量 ， 应 
使 用 per_cpu_prr, 并 传递 要 访问 的 变量 版 本 的 CPU ID 号。 对 某 个 动态 的 per-CPU 
变量 的 当前 CPU 版 本 的 操作 ， 应 该 包含 在 对 get_cpu 和 put_cpu 的 调用 中 间 。 


#include <linux/bootmem.h> 

void *alloc_bootmem{unsigned long size); 

void *alloc_ bootmem_low(unsigned long size); 

void *alloc_ bootmem pages{unsigned long size); 

void *alloc_bootmem low_pages (unsigned long size); 

void free bootmem(unsigned long addr, unsigned long size); 
在 系统 引导 期 间 执行 内 核 分 配 和 释放 的 函数 ,这 些 函 数 只 能 在 直接 链接 到 内 核 的 驱 
动 程序 中 使 用 。 
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尽管 摆弄 scull 以 及 其 他 一 些 玩具 程序 对 理解 Linux 设备 驱动 程序 的 软件 接口 很 有 帮助 ， 
但 实现 真正 的 设备 仍 要 涉及 实际 的 硬件 .设备 驱动 程序 是 软件 概念 和 硬件 电路 之 间 的 一 
个 抽象 层 ， 因此 , 两 方面 都 要 讨论 。 到 现在 为 止 ， 我 们 已 经 详细 讨论 了 软件 概念 上 的 一 
些 细节 , 而 本 章 将 讨论 另 一 方面 , 介绍 驱动 程序 在 Linux 平台 之 上 如 何在 保持 可 移植 性 
的 前 提 下 访问 IO 端口 和 IO 内 存 。 


和 前 面 一 样 ， 本 章 尽 可 能 不 针对 特定 的 硬件 设备 。 但 是 在 需要 示例 的 场合 , 我 们 将 使 用 
简单 的 数字 WO 端口 (比如 标准 的 PC 并 口 ) 来 讲解 1O 指 令 , 并 使 用 普通 的 帧 缓冲 区 显 
存 来 讲解 内 存 映射 IO 。 

我 们 选择 简单 的 数字 IO 是 因为 它 是 最 简单 的 输入 /输出 端口 .几乎 所 有 的 计算 机 上 都 有 
并 口 ， 它 实现 了 裸 的 IO: 写 到 设备 的 数据 位 出 现在 输出 引 脚 上 ， 而 输入 引 脚 的 电压 值 
可 以 由 处 理 器 直接 获取 。 实 践 中 ， 我 们 必须 将 LED 或 者 打印 机 连接 到 并 口上 才能 真正 
“看 到 ”数字 IO 操作 的 结果 ， 但 底层 硬件 非常 容易 使 用 。 


IO 端口 和 1/O 内 存 


每 种 外 设 都 通过 读 写 寄存 器 进行 控制 。 大 部 分 外 设 都 有 几 个 寄存 器 , 不 管 是 在 内 存 地 址 
空间 还 是 在 IO 地 址 空间 ， 这 些 寄 存 器 的 访问 地 址 都 是 连续 的 。 


在 硬件 层 ， 内 存 区 域 和 IO 区 域 没 有 概念 上 的 区 别 : 它们 都 通过 向 地 址 总 线 和 控制 总 线 
发 送 电 平 信号 (比如 读 和 写 信号 ) ( 注 1) 进行 访问 ， 再 通过 数据 总 线 读 写 数据 。 








法 小: 并 非 所 有 计算 机 平台 都 使 用 读 和 写 信 和 号; 有 些 使 用 不 同 的 方式 访问 外 部 电路 。 不 过 这 些 
区 别 对 软件 是 造 明 的 ， 为 兽 化 讨论 ， 这 里 假定 所 有 平台 都 用 读 和 写 信号 。 
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一 些 CPU 制 造 厂商 在 它们 的 芯片 中 使 用 单一 地 址 空间 ,而 另 一 些 则 为 外 设 保留 了 独立 的 
地 址 空间 ,以便 和 内 存 区 分 开 来 。 一 些 处 理 器 (主要 是 x86 家 族 的 ) 还 为 IO 端口 的 读 
和 写 提供 了 独立 的 线路 ， 并 且 使 用 特殊 的 CPU 指令 访问 端口 。 


因为 外 设 要 与 外 围 总 线 相 匹配 ， 而 最 流行 的 MO 总 线 是 基于 个 人 计算 机 模型 的 ， 所 以 即 
使 原本 没有 独立 的 IO 端口 地 址 空间 的 处 理 器 , 在 访问 外 设 时 也 要 模拟 成 读 写 IO 端口 ， 
这 通常 由 外 部 芯片 组 或 CPU 核心 中 的 附加 电路 来 实现 .后 一 种 方式 只 在 戏 人 式 的 微 处 理 
器 中 比较 多 见 。 


基于 同样 的 原因 , Linux 在 所 有 的 计算 机 平台 上 都 实现 了 LO 端口 , 包括 使 用 单一 地 址 空 
间 的 CPU 在 内 .。 端口 操作 的 具体 实现 有 时 依赖 于 宿主 计算 机 的 特定 型 号 和 构造 ( 因为 不 
同 的 型 号 使 用 不 同 的 芯片 组 把 总 线 操作 映射 到 内 存 地 址 空间 )。 


即使 外 设 总 线 为 IO 端口 保留 了 分 离 的 地 址 空间 , 也 不 是 所 有 的 设备 都 会 把 寄存 器 映射 
到 IO 端口 。ISA 设备 普遍 使 用 IO 端口 , 而 大 多 数 PCI 设 备 则 把 寄存 器 映射 到 某 个 内 存 
地 址 区 段 。 这 种 IO 内 存 通常 是 首选 方案 ,因为 不 需要 特殊 的 处 理 器 指令 ; 而 且 CPU 核 
心 访问 内 存 更 有 效率 , 同时 在 访问 内 存 时 , 编译 器 在 寄存 器 分 配 和 寻 址 方式 的 选择 上 也 
有 更 多 的 自由 。 


IO 寄存 器 和 常规 内 存 


尽管 硬件 寄存 器 和 内 存 非常 相似 , 但 程序 员 在 访问 IO 寄存 器 的 时 候 必须 注意 避免 由 于 
CPU 或 编译 器 不 恰当 的 优化 而 改变 预期 的 TO 动作 。 


IO 寄存 器 和 RAM 的 最 主要 区 别 就 是 IO 操作 具有 边际 效应 , 而 内 存 操作 则 没有 : 内 存 
写 操作 的 唯一 结果 就 是 在 指定 位 置 存储 一 个 数值 ; 内 存 读 操作 则 仅仅 返回 指定 位 置 最 后 
一 次 写 入 的 数值 。 由 于 内 存 访 问 速度 对 CPU 的 性 能 至 关 重 要 , 而 且 也 没有 边际 效应 , 所 
以 可 用 多 种 方法 进行 优化 ， 如 使 用 高 速 缓存 保存 数值 、 重 新 排序 读 / 写 指令 等 。 


编译 器 能 够 将 数值 缓存 在 CPU 寄存 器 中 而 不 写 人 内 存 , 即使 存储 数据 , 读 写 操作 也 都 能 
在 高 速 缓存 中 进行 而 不 用 访问 物理 RAM。 无 论 在 编译 器 一 级 或 是 硬件 一 级 , 指令 的 重新 
排序 都 有 可 能 发 生 : 一 个 指令 序列 如 果 以 不 同 于 程序 文本 中 的 次 序 运行 常常 能 执行 得 更 
快 , 例如 在 防止 RISC 处 理 器 流水 线 的 互 锁 时 就 是 如 此 。 在 CISC 处 理 器 上 , 耗 时 的 操作 
则 可 以 和 运行 较 快 的 操作 并 发 执行 。 


在 对 常规 内 存 进行 这 些 优化 的 时 候 , 优化 过 程 是 透明 的 , 而 且 效 果 良 好 (至少 在 单 处 理 
器 系统 上 是 这 样 ), 但 对 VO 操作 来 说 这 些 优化 很 可 能 造成 致命 的 错误 , 这 是 因为 它们 受 
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到 边际 效应 的 干扰 ， 而 这 却 是 驱动 程序 访问 WO 寄存 器 的 主要 目的 。 处理 器 无 法 预料 某 
些 其 他 进程 {在 另 一 个 处 理 器 上 运行 , 或 在 某 个 11O 控制 器 中 发 生 的 操作 ) 是 否 会 依赖 
于 内 存 访问 的 顺序 。 编译 器 或 CPU 可 能 会 自作 聪明 地 重新 排序 所 要 求 的 操作 , 结果 会 发 
生 奇 怪 的 错误 ,并 且 很 难 调试 。 因此， 驱动 程序 必须 确保 不 使 用 高 速 缓存 ,并 且 在 访问 
寄存 器 时 不 发 生 读 或 写 指令 的 重新 排序 。 


由 硬件 自身 缓存 引起 的 问题 很 好 解决 ; 只 要 把 底层 硬件 配置 成 (可 以 是 自动 的 或 是 由 
Linux 初始 化 代码 完成 ) 在 访问 WO 区 域 (不 管 是 内 存 还 是 端口 ) 时 禁止 硬件 缓存 即 可 。 


由 编译 器 优化 和 硬件 重新 排序 引起 的 问题 的 解决 办 法 是 ， 对 硬件 (或 其 他 处 理 器 ) 必须 
以 特定 顺序 执行 的 操作 之 间 设 置 内 存 屏 障 (memory barrier)。Linux 提供 了 4 个 宏 来 解 
决 所 有 可 能 的 排序 问题 : 


#include <linux/kernel.h> 

void barrier (void) 
这 个 函数 通知 编译 器 插入 一 个 内 存 屏障 ,但 对 硬件 没有 影响 ,编译 后 的 代码 会 把 当 
前 CPU 寄存 器 中 的 所 有 修改 过 的 数值 保存 到 内 存 中 ,需要 这 些 数据 的 时 候 再 重新 
读 出 来 。 对 barrier 的 调用 可 避免 在 屏障 前 后 的 编译 器 优化 , 但 硬件 能 完成 自己 的 
重新 排序 。 


#include <asm/system.h> 

void rmblvoid); 

void read barrier_depends (void); 

void wmb (void); 

void mbl(void); 
这 些 函数 在 已 编译 的 指令 流 中 插入 硬件 内 存 屏 障 ; 具体 的 实现 方法 是 平台 相关 的 。 
rmb( 读 内 存 屏障 ) 保 证 了 屏障 之 前 的 读 操作 一 定 会 在 后 来 的 读 操作 执行 之 前 完成 。 
wmb 保 证 写 操作 不 会 乱 序 , mb 指令 保证 了 两 者 都 不 会 。 这 些 函 数 都 是 barrier 的 超 
集 。 


read_barrier_depends 是 一 种 特殊 的 、 弱 一 些 的 读 屏障 形式 。 我 们 知道 ，rmb 避免 
屏障 前 后 的 所 有 读 取 指 令 被 重新 排序 , 而 read_barrier_depends 仅 仅 阻止 某 些 读 取 
操作 的 重新 排序 , 这 些 读 取 依赖 于 其 他 读 取 操作 返回 的 数据 。 它 和 rmb 的 区 别 很 微 
妙 , 而 且 并 不 是 所 有 的 架构 上 都 存在 这 个 函数 。 除 非 读者 能 够 正确 理解 它们 之 间 的 
差别 , 并 且 有 理由 相信 完整 的 读 取 屏 障 会 导致 额外 的 性 能 消耗 , 否则 就 应 该 始终 使 
用 rmb。 
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Void smp_rmblvoid); 

void smp_read barrier_depends (void); 

void smp_wmbl{void}; 

void smp_mb{(void); 
上 述 屏 障 宏 版 本 也 插入 硬件 屏障 ， 但 仅 仪 在 内 核 针 对 SMP 系统 编译 时 有 效 ; 在 单 
处 理 器 系统 上 ， 它 们 均 会 被 扩展 为 上 面 那些 简单 的 屏障 调用 。 


设备 驱动 程序 中 使 用 内 存 屏 障 的 典型 形式 如 下 : 


writel {dev->registers.addr, io_destination_address}); 
writel (dev->registers.size, io_size); 

writel (dev->registers.operation, DEV_READ); 

wmb{}; 

writel (dev->registers.control, DEV_GO); 


在 这 个 例子 中 ,最 重要 的 是 要 确保 控制 某 特定 操作 的 所 有 设备 寄存 器 一 定 要 在 操作 开始 
之 前 已 被 正确 设置 。 其 中 的 内 存 屏 障 会 强制 写 操作 以 要 求 的 顺序 完成 。 


因为 内 存 屏障 会 影响 系统 性 能 , 所 以 应 该 只 用 于 真正 需要 的 地 方 。 不 同类 型 的 内 存 屏 障 
对 性 能 的 影响 也 不 尽 相同 ， 所 以 最 好 尽 可 能 使 用 最 符合 需要 的 特定 类 型 。 例 如 ， 在 x86 
体系 架构 上 ， 由 于 处 理 器 之 外 的 写 人 操作 不 会 被 重新 排序 ， 因 此 ，wmb{) 不 会 做 任何 事 
情 。 但 是 ， 读 取 会 重新 排序 ， 所 以 mb() 就 会 比 wmb() 慢 一 些 。 


值得 注意 的 是 , 大 多 数 处 理 同步 的 内 核 原 语 , 如 自 旋 锁 和 atomic_t 操 作 , 也 能 作为 内 
存 屏 障 使 用 。 辣 时 还 需 注意 , 某 些 外 设 总 线 (比如 PCI 总 线 ) 存在 自身 的 高 速 缓存 问题 ， 
我 们 将 在 后 面 的 章节 中 讨论 相关 问题 。 


在 某 些 体系 架构 上 , 允许 把 赋值 语句 和 内 存 屏障 进行 合并 以 提高 效率 。 内 核 提 供 了 几 个 
执行 这 种 合并 的 宏 ， 在 默认 情况 下 ， 这 些 宏 的 定义 如 下 : 

#define set_mblvar, value) do {var = value; mbl):}] while 0 

#define set_wmb{var, value) do {var = value; wmb();} while 0 

#define set_rmb(var，value) do {var = value; rmb();} while 0 
在 适当 的 地 方 ,<asm/system.h> 中 定义 的 这 些 宏 可 以 利用 体系 架构 特有 的 指令 更 快 地 完 
成 任务 。 注意 ,只 有 小 部 分 体系 架构 定义 了 set_rmb 宏 (使 用 do.. .while 来 构造 宏 是 
标准 C 的 惯用 方法 , 这 种 方法 保证 扩展 后 的 宏 可 在 所 有 上 下 文 环境 中 当 作 一 个 正常 C 语 
句 来 执行 )。 
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使 用 MO 端口 


LO 端口 是 驱动 程序 与 许多 设备 的 之 间 通 信和 方式 一 一 至 少 在 部 分 时 间 是 这 样 。 本 入 讲解 
了 使 用 IO 端口 的 不 同 函 数 ， 另 外 也 涉及 到 一 些 可 移植 性 问题 。 


IO 端口 分 配 

读者 会 想到 ， 在 尚未 取得 对 这 些 端 日 的 独占 访问 之 前 ， 我 们 不 应 对 这 些 端口 进行 操作 。 
内 核 为 我 们 提供 了 一 个 注册 用 的 接口 , 它 允 许 驱 动 程序 声明 自己 需要 操作 的 端口 。 该 接 
口 的 核心 国 数 是 request_region: 


#include <linux/ioport.h> 
struct resource *request region(unsigned long first, unsigned long n, 
const char *name),; 


这 个 函数 告诉 内 核 , 我 们 要 使 用 起 始 于 first 的 n 个 端口 。 参数 name 应 该 是 设备 的 名 
称 。 如 果 分 配 成 功 , 则 返回 非 NULL 值 。 如 果 request_region 返 回 NULL,， 那么 我 们 就 不 
能 使 用 这 些 期 望 的 端口 。 


所 有 的 端口 分 配 可 从 /proclioports 中 得 到 。 如 果 我 们 无 法 分 配 到 需要 的 端口 集合 , 则 可 
以 通过 这 个 /proc 文件 得 知 哪个 驱动 程序 已 经 分 配 了 这 些 端口 。 


如 果 不 再 使 用 某 组 WO 端口 (可 能 在 卸载 模块 时 ), 则 应 该 使 用 下 面 的 函数 将 这 些 端口 返 
回 给 系统 : 


void release_region(tunsigned long start, unsigned long n); 


下 面 的 函数 允许 驱动 程序 检查 给 定 的 1O 端口 集 是 否 可 用 

int check_region(unsigned long first, unsigned long n); 
这 里 ， 如 果 给 定 的 端口 不 可 用 ， 则 返回 值 是 负 的 错误 代码 。 我 们 不 赞成 使 用 这 个 函数 ， 
因为 它 的 返回 值 并 不 能 确保 分 配 是 否 能 够 成 功 , 这 是 因为 , 检查 和 其 后 的 分 配 并 不 是 原 
子 的 操作 。 我 们 在 这 里 列 出 这 个 函数 , 是 因为 仍 有 一 些 驱 动 程序 在 使 用 它 , 但 是 我 们 应 
该 始终 使 用 request_region, 因为 这 个 函数 执行 了 必要 的 锁定 , 以 确保 分 配 过程 以 安全 、 
原子 的 方式 完成 。 


操作 MO 端口 
当 驱 动 程序 请 求 了 需要 使 用 的 MO 端口 范围 后 ,必须 读 取 和 /或 写 人 这 些 端口 。 为 此 , 大 


240 第 九 章 





多 数 硬件 都 会 把 8 位 、16 位 和 32 位 的 端口 区 分 开 来 。 它 们 不 能 像 访问 系统 内 存 那样 混 
消 使 用 ( 注 2)。 


因此 ，C 语言 程序 必须 调用 不 同 的 函数 来 访问 大 小 不 同 的 端口 。 如 前 一 节 所 述 ， 那些 只 
支持 内 存 映射 的 IO 寄存 器 的 计算 机 体系 架构 通过 把 MO 端口 地 址 重新 映射 到 内 存 地 址 
来 伪装 端口 MO, 并 且 为 了 易于 移植 , 内 核对 驱动 程序 隐藏 了 这 些 细节 。Linux 内 核 头 文 
件 中 (在 与 体系 架构 相关 的 头 文件 <asm/io.h> 中 ) 定义 了 如 下 一 些 访问 IO 端口 的 内 联 
函数 。 


unsigned inb(unsigned port); 

void outb(unsigned char byte, unsigned port); 
字 节 (8 位 宽度 ) 读 写 端 口 。port 参数 在 一 些 平台 上 被 定义 为 unsigned long， 
而 在 另 一 些 平台 上 被 定义 为 unsigned short。 不 同 平台 上 inb 返 回 值 的 类 型 也 不 
相同 。 


unsigned inw{unsigned port}; 

void outw(unsigned short word, unsigned port}; 
这 些 函数 用 于 访问 16 位 端口 ( 字 宽 度 ); 不 能 用 于 S390 平台 ， 因 为 这 个 平台 只 支 
持 字 节 宽度 的 IO 操作 。 


unsigned inl (unsigned port); 

void outl{unsigned longword, unsigned port); 
这 些 函 数 用 于 访问 32 位 端口 。1ongword 参 数 根据 不 同 平台 被 定义 成 unsigned 
long 类 型 或 unsigned int 类 型 。 和 字 宽 度 1/0 一 样 ,，“ 长 字 ”IL/O 在 S390 平台 
上 也 不 可 使 用 。 


注意 : 从 现在 开始 , 如 果 我 们 使 用 unsigned 而 不 进一步 指定 类 型 信息 的 话 ， 那么 就 是 在 谈论 一 
个 与 体系 架构 相关 的 定义 ， 此 时 不 必 关 心 它 的 准确 特性 。 这些 函数 基本 是 可 移植 的 ， 因 为 
编译 器 在 赋值 时 会 自动 进行 强制 类 型 转换 (cast) 一 一 强制 转换 成 unsigned 类 型 可 防止 
编译 时 出 现 的 警告 信息 。 只 要 程序 员 赋 值 时 注意 避免 溢出 , 这 种 强制 类 型 转换 就 不 会 丢失 
信息 。 在 本 章 剩余 部 分 将 会 一 直 保 持 这 种 “不 完整 的 类 型 定义 ”的 方式 。 


注意 ， 这 里 没有 定义 64 位 的 IO 操作 。 即 使 在 64 位 的 体系 架构 上 ， 端 口 地 址 空间 也 只 
使 用 最 大 32 位 的 数据 通路 。 


注 2: 有 时 JVO 端口 和 内 存 一 样 ， 例 如 , 可 以 将 两 个 8 位 的 操作 合并 成 一 个 16 位 的 操作 。 如 PC 
的 显卡 就 可 以 ， 但 一 般 来 说 不 能 认为 一 定 具 有 这 种 功能 。 
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在 用 户 空 间 访问 MO 端口 

上 面 这 些 贸 数 主要 是 提供 给 设备 驱动 程序 使 用 的 , 但 它们 也 可 以 在 用 户 空间 使 用 , 至 少 
在 PC 类 计算 机 上 可 以 使 用 。GNU 的 C 库 在 <sys/io.h> 中 定义 了 这 些 国 数 。 如 果 要 在 用 
户 空间 代码 中 使 用 inb 及 其 相关 函数 ， 则 必须 满足 下 面 这 些 条 件 : 


。 ”编译 该 程序 时 必须 带 -0 选项 来 强制 内 联 函 数 的 展开 。 


。 ”必须 用 ioperm 或 iop! 系统 调用 来 获取 对 端口 进行 UO 操作 的 权限 。ioperm 用 来 获 
取 对 单个 端口 的 操作 权限 , 而 iop! 用 来 获取 对 整个 IO 空间 的 操作 权限 。 这 两 个 函 
数 都 是 x86 平台 特有 的 。 


。 ”必须 以 root 身份 运行 该 程序 才能 调用 ioperm 或 iopl ( 注 3)。 或 者 ， 进 程 的 祖先 进 
程 之 一 已 经 以 root 身份 获取 对 端口 的 访问 。 


如 果 宿 主 平台 没有 ;ioperm 和 iopl 系统 调用 ， 则 用 户 空间 程序 仍然 可 以 使 用 /dev/port 设 
备 文件 访问 VO 端口 。 不 过 要 注意 , 该 设备 文件 的 含义 与 平台 密切 相关 , 并 且 除 PC 平台 
以 外 ， 它 几乎 没有 什么 用 处 。 


示例 程序 misc-progslinp.c 和 misc-progsioutp.c 是 在 用 户 空 间 通 过 命令 行 读 写 端 口 的 一 
个 小 工具 。 它们 会 以 多 个 名 字 安 装 ( 如 inb、inw、in!) 并 且 按 用 户 所 调用 的 名 字 相 应 地 
操作 字 节 端口 、 字 端口 或 双 字 端口 。 这 些 程序 在 x86 平 台 上 使 用 ioperm 或 者 iopl, 而 在 
其 他 平台 上 使 用 /deviport。 


作为 尝试 ， 可 以 将 这 些 程序 设置 为 setuid root， 这 样 ， 不 用 显 式 地 获取 特权 就 可 以 使 用 
硬件 了 。 但 请 不 要 在 生产 用 的 系统 上 安装 这 些 setnid 程序 ,因为 这 种 设计 本 身 就 是 安全 
漏洞 。 


串 操 作 


以 上 的 IO 操作 都 是 一 次 传输 一 个 数据 ， 作 为 补充 ， 有 些 处 理 器 上 实现 了 一 次 传输 一 个 
数据 序列 的 特殊 指令 , 序列 中 的 数据 单位 可 以 是 字 节 、 字 或 双 字 。 这些 指令 称 为 串 操作 
指令 , 它们 执行 这 些 任 务 时 比 一 个 C 语 言 编写 的 循环 语句 快 得 多 。 下 面 列 出 的 宏 实 现 了 
串 IO , 它们 或 者 使 用 一 条 机 器 指令 实现 , 或 者 在 没有 串 IO 指 令 的 平台 上 使 用 紧 凌 循环 
实现 。S390 平 台 上 没有 定义 这 些 宏 。 这 不 会 影响 可 移植 性 ， 因 为 该 平台 的 外 设 总 线 不 
同 ， 通 常 不 会 和 其 他 平台 使 用 同样 的 设备 驱动 程序 。 





注 3: 从 技术 上 说 ， 必 须 有 CRP_SYS_RRWIO 的 权能 ， 但 这 与 在 当前 系统 上 以 root 身份 运行 是 
一 样 的 。 
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串 VO 函数 的 原型 如 下 : 


void insb(unsigned port, void *addr, unsigned long count); 

void outsb(unsigned port, void *addr, unsigned long count) 
从 内 存 地址 aadar 开始 连续 读 / 写 count 数目 的 字 节 。 只 对 单一 端口 port 读 取 或 
写 入 数据 。 

void insw(unsigned port, void *addr, unsigned long count); 

void outsw(lunsigned port, void *addr, unsigned long count); 
对 一 个 16 位 端口 读 / 写 16 位 数据 。 

void insl (unsigned port, void *addr, unsigned long count); 

void outsl (unsigned port, void *addr, unsigned long count) : 

Read or write 32-bit values to a single 32-bit port. 


对 一 个 32 位 端口 读 / 写 32 位 数据 。 


在 使 用 串 IO 操作 函数 时 ,需要 铭记 的 是 : 它们 直接 将 字 节 流 从 端口 中 读 取 或 写 入 。 因 
此 ， 当 端口 和 主机 系统 具有 不 同 的 字 节 序 时 ， 将 导致 不 可 预期 的 结果 。 使 用 inw 读 取 端 
口 将 在 必要 时 交换 字 节 , 以便 确保 读 入 的 值 匹 配 于 主机 的 字 节 序 。 然 而 , 串 函 数 不 会 完 
成 这 种 从 换 。 


暂停 式 I/O 


在 处 理 器 试图 从 总 线 上 快速 传输 数据 时 ， 某 些 平台 (特别 是 i386) 会 遇 到 问题 。 当 处 理 
器 时 钟 相 比 外 设 时 钟 快 时 (比如 ISA) 就 会 出 现 问 题 , 并 且 在 设备 板 卡特 别 慢 时 表现 出 
来 。 解决 办 法 是 在 每 条 I/O 指 令 之 后 , 如 果 还 有 其 他 类 似 指令 , 则 插入 一 个 小 的 延迟 ,在 
x86 平 台 上 上 ， 这 种 暂停 可 通过 对 端口 0x80 的 一 条 out b 指令 实现 (通常 这 样 做 ,但 很 
少 使 用 )， 或 者 通过 使 用 忙 等 待 实 现 。 相 关 细 节 可 参考 自己 平台 上 asm 子 目录 下 的 io.h 
文件 。 


如 果 有 设备 丢失 数据 的 情况 ， 或 为 了 防止 出 现 丢 失 数 据 的 情况 ， 可 以 使 用 暂停 式 的 UO 
函数 来 取代 通常 的 WO 函数 。 这 些 暂 停 式 的 IO 函数 很 像 前 面 已 经 列 出 的 那些 IO 函数 ， 
不 同 之 处 是 它们 的 名 字 用 _p 结尾 ,如 inb_p、outb_p 等 等 。 在 Linux 支持 的 大 多 数 平台 
上 都 定义 了 这 些 函 数 , 不 过 它们 常常 扩展 为 和 非 暂 停 式 1/0 同样 的 代码 ， 因 为 如 果 某 种 
体系 架构 不 使 用 过 时 的 外 设 总 线 ， 就 不 需要 额外 的 暂停 。 


平台 相关 性 


由 于 自身 的 特性 ，L/O 指令 是 与 处 理 器 密切 相关 的 。 因 为 它们 的 工作 涉及 到 处 理 器 移 人 
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移出 数据 的 细节 ， 所 以 隐藏 平 台 间 的 差异 非常 困难 。 因 此 ， 大 部 分 与 1O 端口 有 关 的 源 
代码 都 与 平台 相关 。 


回顾 前 面 的 函数 列表 ,可 以 看 到 有 一 处 不 兼容 的 地 方 、 即 数据 类 型 。 函数 的 参数 根据 各 
平台 体系 架构 上 的 不 同 要 相应 地 使 用 不 同 的 数据 类 型 。 例 如 ，port 参数 在 x86 平 台 (处 
理 器 只 支持 64KB 的 VO 空间 ) 上 定义 为 unsigned short、 但 在 其 他 平台 上 定义 为 
unsigned long， 在 这 些 平台 上 ， 端口 是 与 内 存在 同一 地 址 空间 内 的 一 些 特定 区 域 。 


其 他 一 些 与 平台 相关 的 问题 来 源 于 处 理 器 基本 结构 上 的 差异 , 因此 也 无 法 避免 。 因为 本 
书 假定 读者 不 会 在 不 了 解 底层 硬件 的 情况 下 为 特定 的 系统 编写 驱 动 程序 ,所 以 不 会 详细 
计 论 这 些 差异 。 下 面 是 内 核 支 持 的 体系 架构 可 以 使 用 的 函数 的 总 结 : 


1A-32 fx86) 

1486 64 
该 体系 架构 支持 本 章 提 到 的 所 有 函数 。 端 口号 的 类 型 是 unsigned short。 

1A-64 {ltanium)} 
支持 所 有 函数 ; 端口 类 型 是 unsigned long (映射 到 内 存 )。 串 操作 函数 是 用 C 语 
言 实现 的 。 

Alpha 
支持 所 有 函数 , 而 IO 端口 是 映射 到 内 存 的 。 根 据 不 同 的 Alpha 平 台 上 所 使 用 的 世 
片 组 的 不 同 ,端口 IO 操作 的 实现 也 有 所 不 同 。 串 操作 是 用 C 语 言 实现 的 , 在 文件 
arch/ialphalliblio.c 中 定义 。 端 口 类 型 是 unsigned long。 

ARM 
端口 映射 到 内 存 ， 支 持 所 有 函数 ; 串 操 作用 C 语 言 实现 。 端 口 类 型 是 unsigned 
Lint 

Cris 
该 体系 架构 不 支持 IO 端口 的 抽象 接口 , 即使 在 仿真 模式 下 也 是 如 此 ,上述 各 种 端 
口 操作 被 定义 为 不 做 任何 事情 。 

M68Kk 

M6S8Kk-nommu 
端口 映射 到 内 存 。 支 持 串 操作 ,端口 类 型 是 unsigneqd char *。 

MIiIPS 

MIPS64 
MIPS 端口 支持 所 有 函数 。 因 为 该 处 理 器 不 提供 机 器 级 的 串 MO 操作 ， 所 以 串 操作 
是 用 汇编 语言 编写 的 紧凑 循环 〈tight loop) 实现 的 。 端 口 映 射 到 内 存 ， 端 口 类 型 
是 unsigned long。 
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PA-RISC 
支持 所 有 的 函数 。 在 基于 PCI 总线 的 系统 上 ， 端 口 是 int 型 ， 而 在 EISA 系统 上 ， 
端口 是 unsigned short 型 ， 但 串 操 作 是 例外 ， 它 使 用 unsigned long 的 端口 
类 型 。 

PowerPC 

PowerPC6f 
支持 所 有 函数 ; 在 32 位 系统 上 , 端口 类 型 为 unsigned char *, 在 64 位 系统 上 ， 
端口 类 型 为 unsigned long。 

$390 
类 似 于 M68k， 该 平台 的 头 文件 只 支持 字 节 宽度 的 端口 IO， 不 支持 串 操 作 。 端 品 
类 型 是 字符 型 (char) 指针 ， 映 射 到 内 存 。 

Super-H 
端口 类 型 是 unsigned int (映射 到 内 存 )， 支 持 所 有 函数 。 

SPARC 

SP4RCO4 
和 前 面 一 样 ，I/O 空间 映射 到 内 存 。 端 口 操 作 函 数 的 port 参数 类 型 是 unsigned 
Long。 


感 兴趣 的 读者 可 以 从 io.h 文 件 获得 更 多 信息 , 除了 本 章 所 介绍 的 函数 ,一 些 与 体系 架构 
相关 的 函数 有 时 也 由 该 文件 定义 。 不 过 要 注意 的 是 ， 这 些 文件 阅读 起 来 会 比较 困难 。 


值得 提 及 的 是 ，x86 家 族 之 外 的 处 理 器 都 不 为 端口 提供 独立 的 地 址 空间 ， 尽 管 使 用 其 中 
几 种 处 理 器 的 机 器 带 有 ISA 和 PCI 插 槽 ( 两 种 总 线 都 实现 了 不 同 的 HO 和 内 存 地 址 空间 )。 


此 外 ， 一些 处 理 器 (特别 是 早期 的 Alpha 处 理 器 ) 没有 一 次 传输 1 或 2 个 字 节 的 指令 
{ 注 4)。 因 此 ,它们 的 外 设 芯 片 通过 把 端口 映射 到 内 存 地 址 空间 的 特殊 地 址 范围 来 模拟 
8 位 和 16 位 的 {0 访问 。 这样， 对 间 一 个 端口 的 inb 和 inw 指令 实现 为 两 个 32 位 的 读 取 
不 同 内 存 地 址 的 操作 。 幸好 , 本 章 前 面 介 绍 的 宏 的 内 部 实现 对 驱动 程序 开发 人 员 隐 藏 了 
这 些 细节 ， 不 过 这 个 特点 还 是 很 有 趣 的 。 想 进一步 深入 研究 的 读者 可 以 参阅 includel 
asm-ailphalcore_lca.h 中 的 例子 。 


注 4: 单字 节 I/O 操 作 并 没有 想像 中 那么 重要 ,因为 这 种 操作 很 少 发 生 。 为 了 读 / 写 任意 地 址 空 
间 的 单个 字 节 ,需要 实现 一 条 从 宕 存 器 组 数据 总 线 低位 到 外 部 数据 总 线 任 感 字 节 位 置 的 
数据 通路 。 这 种 数据 通路 在 每 一 次 数据 传输 中 部 需要 额外 的 远 辑 门 。 不 使 用 这 类 字 节 宽 
度 的 存 取 指令 可 以 提升 系统 的 总 体 性 能 。 
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IO 操作 在 各 个 平台 上 执行 的 细节 在 对 应 平台 的 编程 手册 中 有 详细 的 叙述 ; 也 可 从 Web 
上 下 载 这 些 手册 的 PDF 文件 。 


W/O 端口 示例 


我 们 用 来 演示 设备 驱动 程序 的 端口 VO 的 示例 代码 运行 于 通用 的 数字 IO 端口 上 ， 这 种 
端口 在 大 多 数 计算 机 平台 上 都 能 找到 。 


数字 IO 端口 最 常见 的 形式 是 一 个 字 节 宽度 的 WO 区域 ， 它 或 者 映射 到 内 存 ， 或 者 映射 
到 端口 。 当 把 数值 写 人 到 输出 区 域 时 , 输出 引 脚 上 的 电 平 信号 随 着 写 人 的 各 位 而 发 生 相 
应 变化 。 从 输入 区 域 读 取 到 的 数据 则 是 输入 引 脚 各 位 当前 的 逻辑 电 平 值 。 


这 类 IO 端口 的 具体 实现 和 软件 接口 是 因 系统 而 异 的 。 大 多 数 情况 下 , IO 引 脚 是 由 两 个 
IO 区 域 控制 的 :一 个 区 域 中 可 以 选择 用 于 输入 和 输出 的 引 脚 ， 另 一 个 区 域 中 可 以 读 写 
实际 的 逻辑 电 平 。 不 过 有 时 候 情况 简单 些 , 每 个 位 不 是 输入 就 是 输出 (不 过 在 这 种 情况 
下 不 能 再 称 为 “通用 1/JO” 了 ); 在 所 有 个 人 计算 机 上 都 能 找到 的 并 口 就 是 这 样 的 非 通用 
的 MO 端口 。 我 们 随后 介绍 的 示例 代码 要 用 到 这 些 IO 引 脚 。 


并 口 简介 


因为 假定 大 多 数 读者 使 用 的 都 是 称 为 “个 人 计算 机 ”的 x86 平台 ， 所 以 解释 一 下 PC 并 
口 的 设计 思想 是 必要 的 。 并 口 也 是 在 我 们 在 个 人 计算 机 上 运行 数字 IO 示例 代码 时 选用 
的 外 设 接口 。 尽 管 许多 读者 手头 可 能 有 并 口 的 规范 , 但 为 了 方便 , 还 是 在 这 里 概括 一 下 。 


并 口 的 最 小 配置 (不 涉及 ECP 和 EPP 模式 ) 由 3 个 8 位 端口 组 成 。PC 标准 中 第 一 个 并 
日 的 IO 端口 是 从 地 址 0x378 开始 ,第 二 个 端口 是 从 地 址 0x278 开始 。 第 一 个 端口 是 
一 个 双向 的 数据 寄存 器 ; 它 直接 连接 到 物理 连接 器 的 2 ~ 9 号 引 脚 上 。 第 二 个 端口 是 一 个 
只 读 的 状态 寄存 器 ; 当 并 口 连 接 到 打印 机 时 , 该 寄存 器 报告 打印 机 的 状态 , 如 是 否 在 线 、 
缺 纸 、 正 忙 等 等 。 第 三 个 端口 是 一 个 只 用 于 输出 的 控制 寄存 器 , 它 的 作用 之 一 是 控制 是 
否 启 用 中 汤 。 


在 并 行 通信 中 使 用 的 电 平 信号 是 标准 的 TTL 电 平 : 0 伏 和 5 伏 ， 还 辑 益 值 大 约 为 1.2 伏 。 
我 们 可 以 认为 端口 至 少 满足 标准 的 TTL LS 电流 规格 ,而 现代 的 大 部 分 并 口 的 电流 和 所 
压 都 超过 了 上 述 规格 的 定义 。 





警告 并 口 连接 器 没有 和 计算 机 的 内 部 电路 隔离 ,这 一 点 在 试图 把 逻辑 门 直 接连 到 端口 时 很 有 用 。 
但 要 注意 正确 连 线 ; 否则 在 测试 自己 定制 的 电路 时 ,很 容易 烧毁 并 口 。 如 果 担心 毁坏 主板 
的 话 ， 可 以 选用 可 插 拔 的 并 行 接口 。 
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图 9-1 说 明了 并 口 的 位 规范 。 可 以 读 写 12 个 输出 位 和 5 个 输入 位 ,其 中 一 些 位 在 它们 的 
信号 通路 上 会 有 人 逻辑 上 的 翻转 。 唯一 一 个 不 与 任何 信号 引 脚 有 联系 的 位 是 2 号 端口 的 第 
4 位 (0x10), 它 启用 来 自 并 口 的 中 断 。 我 们 将 在 第 十 章 中 的 一 个 中 断 处 理 程序 中 使 用 它 。 
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图 9-1: 并 口 的 引 脚 


示例 驱动 程序 


下 面 要 介绍 的 驱动 程序 叫做 short ( Simple Hardware Operations and Raw Tests ， 简 单 
的 硬件 操作 和 裸 测试 )。 它 所 做 的 就 是 读 写 几 个 8 位 端口 ， 起 始 的 端口 是 加 载 时 选 定 的 。 
默认 情况 下 它 使 用 的 就 是 分 配给 PC 并 口 的 端口 范围 。 每 个 设备 节点 (拥有 唯一 的 次 设 
备 号 ) 访问 一 个 不 同 的 端口 。 short 设 备 没 有 任何 实际 用 途 ， 使 用 它 只 是 为 了 能 用 一 条 指 
令 来 从 外 部 对 端口 进行 操作 。 如 果 读 者 不 太 了 解 端口 MO， 那么 可 以 通过 使 用 short 来 熟 
悉 它 ， 可 以 测量 它 传输 数据 时 消耗 的 时 间或 者 进行 其 他 的 测试 。 


为 使 short 在 系统 上 工作 ， 它 必须 能 自 由 地 访问 底层 硬件 设备 (默认 情况 下 就 是 并 口 )， 
因此 不 能 有 其 他 驱动 程序 在 使 用 同一 设备 。 现在 的 大 多 数 Linux 发布 版 本 将 并 口 驱动 程 
序 作为 模块 安装 ， 并 且 只 在 需要 用 到 的 时 候 才 加 载 ， 所 以 一 般 不 会 发 生 争 夺 IO 地址 的 
问题 。 不 过 ， 如 果 short 给 出 一 个 “can't get IO address (无 法 获得 IO 地 址 )” 的 错误 
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(可 能 在 控制 台 或 者 系统 日 志文 件 中 ), 则 说 明 可 能 已 经 有 其 他 驱动 程序 占用 了 这 个 端口 。 
通过 检查 /proc/ioport 一 般 可 以 找 出 这 是 哪个 驱动 程序 。 这 种 情况 同样 适用 于 并 口 之 外 
的 其 他 LO 设备 。 


从 现在 开始 , 为 简化 讨论 , 我 们 所 指 的 设备 都 是 并 口 。 不 过 也 可 以 在 模块 加 载 时 通过 设 
置 参数 base 把 short 重 定 向 到 其 他 1O 设 备 。 这样 ， 示例 代码 可 以 在 任何 拥有 对 数字 1 
O 接 口 访问 权限 的 Linux 平台 上 运行 ,这些 接 口 必须 是 能 用 outb 和 inb 进行 访问 的 ( 尽 
管 实际 硬件 在 除 x86 之 外 的 所 有 平台 上 都 是 映射 到 内 存 的 )。 在 随后 的 “使 用 IO 内 存 ” 
一 节 中 ， 我 们 还 将 展示 short 是 如 何 用 于 通用 的 映射 到 内 存 的 数字 IO 的 。 


为 了 观察 并 口 连接 器 上 发 生 了 什么 , 并 且 如 果 读 者 喜欢 操作 硬件 , 那么 可 以 焊 几 个 LED 
到 输出 引 脚 上 。 每 个 LED 都 要 串联 一 个 lxg 的 电阻 到 一 个 接地 的 引 脚 上 (除非 使 用 的 
LED 已 经 有 内 建 电 阻 )。 如 果 将 输出 引 脚 接 到 输入 引 脚 上 ， 就 可 以 产生 自己 的 输入 供 输 
入 端口 读 取 。 


注意 ， 不 能 仅仅 通过 把 打印 机 连接 到 并 口 来 观察 送 给 short 的 数据 。 因 为 这 个 驱动 程序 
只 实现 了 简单 的 0 端口 访问 ,不 能 提供 打印 机 操作 数据 时 所 需 的 握手 信号 。 下 一 章 介 
绍 的 示例 驱动 程序 ( 称 为 shortprint) 可 驱动 并 口 打印 机 , 但 是 该 驱动 程序 使 用 了 中 断 ， 
因此 目前 还 不 能 介绍 这 个 驱动 程序 。 


如 果 读 者 打算 将 LED 焊 到 D 型 连接 器 上 来 观察 并 行 数据 ， 建 议 不 要 使 用 9 号 和 10 号 引 
脚 ， 因 为 在 运行 第 十 章 的 示例 代码 时 我 们 要 使 用 这 些 引 脚 。 


至 于 short, 它 通 过 /dev/short0 读 写 位 于 LO 地 址 base( 除 非 加 载 时 修改 ， 否则 就 是 0x378 ) 
的 8 位 端口 。/dev/shortl 写 人 位 于 base + 1 的 8 位 端口 , 依次 类 推 , 直到 base + 7。 


/dew/short0 实 际 执行 的 输出 操作 是 一 个 使 用 cxtb 的 紧 凌 循环 。 这 里 还 使 用 了 内 存 屏 障 指 
令 来 确保 输出 操作 会 实际 执行 而 不 是 被 优化 掉 。 


while (count--) { 
outb(*({(ptr++), port); 
wmbt{); 

} 


可 以 运行 下 面 的 命令 来 使 LED 发 光 : 
echo -n "any string" > /dev/short0 
每 个 LED 监 控 输 出 端口 的 一 个 位 。 注意 , 只 有 最 后 写 人 的 字符 数据 才 会 在 输出 引 脚 上 稳 


定 地 保持 下 来 而 被 观察 到 。 因 此 ， 建 议 将 -n 选项 传递 给 echo 程序 来 制止 输出 字符 后 的 
自动 换行 。 
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读 取 端口 也 使 用 类 似 的 函数 ,只 是 用 inb 代 赫 了 outb。 为 了 从 并 口 读 取 “有 意义 的 ” 值 ， 
需要 将 其 个 硬件 连接 到 并 口 连接 器 的 输入 引 脚 上 来 产生 信和 号。 如 果 没 有 输入 信号 , 则 只 
会 读 取 到 始终 是 相同 字 节 的 无 穷 输 出 流 。 如 果 选 择 从 输出 端口 读 入 , 将 会 取 回 写 入 到 该 
端口 的 最 后 一 个 值 (对 并 口 和 其 他 大 多 数 普通 数字 IO 电路 都 是 如 此 )。 因此 , 不 想 摆弄 
烙铁 的 读者 可 以 运行 下 面 的 命令 在 端口 0x378 读 取 当前 的 输出 值 : 


da if=/dev/short0 bs=1 count=1 | od -t xl 


为 了 示范 所 有 IO 指令 的 使 用 , 每 个 short 设 备 都 提供 了 3 个 变种 : /dev/short0 执 行 的 是 
上 面 的 循环 ; /dev/shorr0p 使 用 了 outb_p 和 inb_p 来 替代 前 者 使 用 的 “ 较 快 的 ”函数 ， 
/devishort0s 使 用 了 串 指 令 。 这 样 的 设备 共有 8 个 ， 从 shori0 到 short7。PC 并 口 只 有 三 
个 端口 ， 如 果 读 者 使 用 了 其 他 不 同 的 1/0 设备 进行 测试 ， 就 可 能 需要 更 多 的 端口 。 


虽然 short 驱 动 程序 只 完成 了 最 低 限度 的 硬件 控制 , 但 这 对 演示 IO 端口 指令 的 使 用 已 经 
足够 了 。 感 兴趣 的 读者 可 以 参阅 parport 和 parport_pc 两 个 模块 的 源 代码 ， 看 看 为 支持 
使 用 并 口 的 设备 (打印 机 、 磁 带 备 份 、 网 络 接口 ) 所 需 的 复杂 工作 。 


使 用 1/O 内 存 


除了 x86 上 普遍 使 用 的 IO 端口 之 外 ， 和 设备 通信 的 另 一 种 主要 机 制 是 通过 使 用 映射 到 
内 存 的 寄存 器 或 设备 内 存 。 这 两 种 都 称 为 IO 内 存 ， 因 为 寄存 器 和 内 存 的 差别 对 软件 是 
透明 的 。 


IO 内 存 仅仅 是 类 似 RAM 的 一 个 区 域 , 在 那里 处 理 器 可 以 通过 总 线 访 问 设备 。 这 种 内 存 
有 很 多 用 途 ， 比 如 存放 视频 数据 或 以 太 网 数据 包 ， 也 可 以 用 来 实现 类 似 TO 端口 的 设备 
寄存 器 (也 就 是 说 ， 对 它们 的 读 写 也 存在 边际 效应 ) 。 


访问 I/O 内 存 的 方法 和 计算 机 体系 架构 、 总 线 以 及 正在 使 用 的 设备 有 关 ， 不 过 原理 都 是 
相同 的 。 本 章 主要 讨论 ISA 和 PCI 内 存 , 同时 也 试 着 介绍 一 些 通用 的 知识 。 尽 管 这 里 介 
绍 了 对 PCI 内存 的 访问 ， 但 关于 PCI 的 详细 讨论 将 放 到 第 十 二 章 中 进行 。 


根据 计算 机 平台 和 所 使 用 总 线 的 不 同 , IO 内 存 可 能 是 、 也 可 能 不 是 通过 页 表 访问 的 。 如 
果 访 问 是 经 由 页 表 进 行 的 , 内 核 必 须 首 先 安排 物理 地 址 使 其 对 设备 驱动 程序 可 见 ( 这 通 
常 意味 着 在 进行 任何 IO 之 前 必须 先 调 用 ioremap )。 如 果 访 问 无 需 页 表 ， 那 么 IO 内 存 
区 域 就 非常 类 似 于 1/O 端口 ， 可 以 使 用 适当 形式 的 函数 读 写 它们 。 


不 管 访问 WO 内 存 时 是 否 需 要 调用 ioremap, 都 不 鼓励 直接 使 用 指向 IO 内 存 的 指针 。 尽 
管 〈( 如 在 “IO 端口 和 IO 内存 ”一 节 中 介绍 的 那样 ) WO 内 存在 硬件 一 级 像 普 通 RAM 
一 样 寻 址 ， 但 在 “IO 寄存 器 和 常规 内 存 ” 一 节 中 描述 过 的 需要 额外 小 心 的 内 容 中 ， 我 
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们 不 建议 使 用 普通 的 指针 。 相 反 ， 使 用 包装 函数 访问 WO 内存 ,这 一 方面 在 所 有 平台 上 
都 是 安全 的 , 另 一 方面 , 在 可 以 直接 对 指针 指向 的 内 存 区 域 执 行 操作 的 时 候 , 这 些 函 数 
是 经 过 优化 的 。 


因此 ,即使 在 x86 上 直接 使 用 指针 (现在 ) 可 以 工作 (而 不 是 使 用 适当 的 宏 ), 这 种 做 法 
也 会 影响 驱动 程序 的 可 移植 性 和 可 读 性 。 


MO 内 存 分 配 和 映射 


在 使 用 之 前 , 必须 首先 分 配 HO 内 存 区 域 。 用 于 分 配 内 存 区 域 的 接口 (在 <linux/ioport.h> 
中 定义 ) 如 下 所 示 : 


struct resource *request mem region(unsigned long start, unsigned long len, 
char *name}); 


该 函数 从 start 开始 分 配 len 字 节 长 的 内 存 区 域 。 如 果 成 功 ， 返 回 非 NULL 指针 ; 否 
则 返回 NULL 值 。 所 有 的 1/0 内 存 分 配 情 况 均 可 从 /procyiomem 得 到 。 
不 再 使 用 已 分 配 的 内 存 区 域 时 ， 使 用 下 面 的 接口 释放 : 


void release_mem_region{(unsigned long start, unsigned long len); 


下 面 是 用 来 检查 给 定 的 IO 内 存 区 域 是 否 可 用 的 老 函数 : 


int check_mem region{unsigned long start, unsigned long len); 
但 是 ， 和 check_region 一 样 ， 这 个 国 数 不 安 全 ， 应 避免 使 用 。 


分 配 IO 内 存 并 不 是 访问 这 些 内 存 之 前 需要 完成 的 唯一 步骤 ， 我 们 还 必须 确保 该 1/0 内 
存 对 内 核 而 言 是 可 访问 的 。 获 取 I/O 内 存 并 不 仅仅 意味 着 可 引用 对 应 的 指针 ; 在 许多 系 
统 上 ，LO 内 存根 本 不 能 通过 这 种 方式 直接 访问 。 因 此 ， 我们 必须 首先 建立 映射 。 映 射 
的 建立 由 ioremap 函数 完成 , 我 们 在 第 八 章 的 “vmalloc 及 其 辅助 函数 ”一 节 中 介绍 过 这 
个 函数 。 该 函数 专用 于 为 VO 内 存 区 域 分 配 虚拟 地 址 。 


一 日 调用 ioremap (以 及 iounmap) 之 后 ， 设 备 驱 动 程序 即 可 访问 任意 的 MO 内 存 地 址 
了 ， 而 无 论 IO 内 存 地 址 是 否 直接 映射 到 虚拟 地 址 空间 。 但 要 记 住 ， 由 ioremap 返回 的 
地 址 不 应 直接 引用 ， 而 应 该 使 用 内 核 提 供 的 accessor 函数 。 在 我 们 介绍 这 些 函 数 之 前 ， 
首先 复习 一 下 ioremap 的 原型 并 介绍 一 些 先前 章节 中 跳 过 的 细节 内 容 。 


我 们 根据 以 下 的 定义 来 调用 ioremap 范 数 : 


#include <asm/io.h> 
void *ioremap(lunsigned long phys_addr, unsigned long size); 
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void *ioremap_nocache (unsigned long phys_addr, unsigned long size); 

void iounmap (void * addr); 
首先 读者 会 注意 到 新 的 函数 : ioremap_nocache。 我 们 并 没有 在 第 八 章 介绍 这 个 函数 ， 
为 该 函数 的 功能 和 硬件 相关 。 内 核 头 文件 中 有 如 下 一 段 解释 : “如 果 某 些 控制 寄存 器 也 
在 此 类 区 域 ， 而 不 希望 出 现 写 人 组 合 或 者 读 取 高 速 缓存 的 话 ， 则 可 使 用 该 函数 。” 实 际 
上 ，, 在 大 多 数 计算 机 平台 上 ,该 函数 的 实现 和 ioremap 相同 : 当 所 有 IO 内 存 已 属于 非 
缓存 地 址 上 时， 就 没有 必要 实现 ioremap 的 独立 的 、 非 缓存 版 本 。 


访问 VO 内 存 


在 某 些 平台 上 , 我 们 可 以 将 ioremap 的 返回 值 直 接 当 作 指 针 使 用 。 但 是 ,这 种 使 用 不 具 
有 可 移植 性 ， 而 内 核 开 发 者 正在 致力 于 减少 这 类 使 用 。 访 问 IO 内 存 的 正确 方法 是 通过 
一 组 专用 于 此 目的 的 函数 (在 <asm/io.h> 中 定义 )。 


要 从 WO 内 存 中 读 取 ， 可 使 用 下 面 函 数 之 一 : 


unsigned int ioread8 (void *addr); 
unsigned int ioreadl6 (void *addr}); 
unsigned int ioread32 {void *addr); 


其 中 ,addr 应 该 是 从 ioremap 获得 的 地 址 ( 可 能 包含 一 个 整数 偏 移 量 ); 返回 值 则 是 从 
给 定 1O 内 存 读 取 到 的 值 。 


还 有 一 组 用 于 写 人 IO 内 存 的 类 似 函 数 集 如 下 : 


void iowrite8(u8 value, void *addr}; 
void iowritelé6 {ul6 value, void *addr); 
void iowrite32(u32 value, void *addr); 


如 果 必 须 在 给 定 的 IO 内 存 地 址 处 读 / 写 一 系列 的 值 ， 则 可 使 用 上 述 函 数 的 重复 版 本 : 


void ioread8_replvoid *addr, void *buf, nsigned long count); 
void ioread16_rep{void *addr, void *buf, unsigned long count); 
void ioread32_rep{void *addr, void *buf, unsigned long count}); 
void iowrite8_rep (void *addr, const void *buf, unsigned long count); 
void iowritel6_rep(void *addr, const void *buf, unsigned long count); 
void iowrite32_replvoid *addr, const void *buf, unsigned long count); 


上 述 函 数 从 给 定 的 buf 向 给 定 的 addr 读 取 或 写 信 count 个 值 。 注意 ，count 以 被 写 
入 的 数据 大 小 为 单位 表示 ， 比 如 ，ioread32_rep 从 addr 中 读 取 count 个 32 位 的 值 到 
buf 中 。 


上 面 给 出 的 函数 均 在 给 定 的 adadar 处 执行 所 有 的 IO 操作 。 如 果 我 们 要 在 一 块 JO 内 存 上 
执行 操作 ， 则 可 以 使 用 下 面 的 国 数 之 一 : 
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void memset_io(void *addr, u8 value, unsigned int count); 
void memcpy_fromiol(void *dest, void *source, unsigned int count); 
void memcpy_toio{voiqd *dest, void *source, unsigned int count)}; 


上 述 函 数 和 C 函数 库 的 对 应 函数 功能 一 致 。 


如 果 读 者 阅读 内 核 源 代码 ， 可 能 会 过 到 一 组 老 的 1/O 内 存 函 数 。 这 些 函 数 仍 能 工作 , 但 
不 鼓励 在 新 的 代码 中 使 用 这 些 函 数 。 主 要 原因 是 因为 这 些 函 数 不 执 行 类 型 检查 , 因此 其 
安全 性 较 差 。 这 些 函 数 〈 宏 ) 的 原型 如 下 : 


unsigned readbladdress); 
unsigned readw (address); 
unsigned readl (address}; 


这 些 宏 用 来 从 1/0 内 存 检 索 8 位 、16 位 和 32 位 的 数据 。 


void writeb(unsigned value, address); 
void writew(unsigned value, address); 
void writel (unsigned value, address); 


类 似 前 面 的 函数 ， 这 些 函 数 《( 宏 ) 用 来 写 8 位 、16 位 和 32 位 的 数据 项 。 


一 些 64 位 平台 还 提供 了 readq 和 wrireq, 用 于 PCI 总 线 上 的 4 字 (8 字 节 ) 内 存 操作 。 这 
个 4 字 (quad-word ) 的 命名 是 个 历史 遗留 问题 , 那 时 候 所 有 的 处 理 器 都 只 有 16 位 的 字 。 
实际 上 , 现在 把 32 位 的 数值 叫做 L (长 字 ) 已 经 是 不 正确 的 了 , 不 过 如 果 对 一 切 都 重新 
命名 ， 只 会 把 事情 搞 得 更 复杂 。 


像 VO 内 存 一 样 使 用 端口 


某 些 硬件 具有 一 种 有 趣 的 特性 : 某 些 版 本 使 用 IO 端口 ， 而 其 他 版 本 使 用 IO 内 存 。 导 
出 给 处 理 器 的 寄存 器 在 两 种 情况 下 都 是 一 样 的 , 但 访问 方法 却 不 同 。 为 了 让 处 理 这 类 硬 
件 的 驱动 程序 更 加 易于 编写 , 也 为 了 最 小 化 IO 端口 和 内 存 访 问 之 间 的 表面 区 别 , 2.6 内 
核 引 入 了 ioport_map 函数 : 


void *ioport_map (unsigned long port, unsigned int count); 


该 函数 重新 映射 count 个 IO 端口 ,使 其 看 起 来 像 IO 内 存 。 此 后 ,驱动 程序 可 在 该 函 
数 返 回 的 地 址 上 使 用 ioread8 及 其 同类 函数 , 这 样 就 不 必 理 会 1O 端 口 和 1/0 内存 之 间 的 
区 别 了 。 


当 不 再 需要 这 种 映射 时 ， 需 要 调用 下 面 的 函数 来 撤消 : 


void ioport_unmap (void *adqr): 
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这 些 函 数 使 得 WO 端口 看 起 来 像 内存 。 但 需要 注意 的 是 、 在 重新 映射 之 前 ， 我 们 必须 通 
过 request_region 来 分 配 这 些 IO 端口 。 


为 MO 内 存 重用 short 


前 面 介绍 的 short 示例 模块 访问 的 是 WO 端口 , 它 也 可 以 访问 WO 内 存 。 为 此 必须 在 加 载 
时 通知 它 使 用 IO 内 存 ， 另 外 还 要 修改 base 的 地 址 以 使 其 指向 WO 区 域 。 


例如 ， 我 们 用 下 列 命令 在 一 块 MIPS 开发 板 上 点 亮 调试 用 的 LED: 


mips.root# ./short_load use mem=1 base=0xb7ffffc0 
mips.root# echo -n 7 > /dev/short0 


在 shorr 中 使 用 IO 内 存 和 使 用 IO 端口 是 一 样 的 。 
下 面 的 代码 段 说 明了 short 写 入 内 存 区 域 时 使 用 的 循环 : 


while (count--) { 
iowrite8(*ptr++, address); 
wmb(); 


} 


注意 , 这 里 使 用 了 写 内 存 屏障 。 因 为 在 许多 体系 架构 上 iowrite8 会 转化 成 一 个 直接 赋值 
语句 ， 所 以 为 确保 写 操作 按照 预期 的 顺序 执行 ， 使 用 内 存 屏 障 是 必要 的 。 


short 使 用 inb 和 outb 来 完成 相应 的 工作 。 但 是 ， 修 改 short 并 使 用 ioport_map 以 便 将 
IO 端口 映射 为 1O 内 存 的 工作 非常 直接 (这 将 大 大 简化 其 余 的 代码 )， 因 此 留 给 读者 来 
完成 。 


1MB 地 址 空间 之 下 的 1SA 内 存 


最 广为人知 的 IO 内存 区 之 一 就 是 个 人 计算 机 上 的 ISA 内 存 段 。 它 的 内 存 范围 在 640KB 
(0xA0000) 到 1MB (0x100000) 之 间 ， 因 此 它 正好 出 现在 常规 系统 RAM 的 中 间 。 
这 种 地 址 的 安排 看 上 去 可 能 有 点 奇怪 , 但 因为 这 个 设计 决策 是 20 世纪 80 年 代 早 期 作出 
的 ， 在 当时 看 来 没有 人 会 用 到 640KB 以 上 的 内 存 。 


这 个 内 存 段 属于 非 直 接 映射 一 类 的 内 存 ( 注 5)。 如 此 可 以 利用 short 模块 在 该 内 存 段 中 

读 写 几 个 字 节 ， 前 面 已 介绍 过 ， 在 加 载 模 块 时 要 设置 use_mem 标志 。 

A 且 全 天 让 生生 生生 生生 生生 生生 下 二 

注 5: 实际 上 并 非 完全 如 此 。 因 为 该 内 存 范 围 殷 小 而 且 使 用 频繁 ,所 以 内 核 在 启动 时 就 建立 了 
访问 这 些 地 址 的 页 表 。 但 是 ,访问 它 们 用 的 虚拟 地 址 和 实际 物理 地 址 并 不 相同 ， 所 以 无 
论 如 何 都 要 使 用 ioremap。 
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尽管 TSA IO 内 存 只 存在 于 x86 类 的 计算 机 上 ， 但 我 们 还 是 介绍 一 下 ， 并 附 以 一 个 示例 
程序 。 


本 章 不 讨论 PCI 内 存 , 因为 它 是 IO 内 存 中 最 “干净 ”的 一 种 : 只 要 知道 了 物理 地 址 , 就 
能 简单 地 重 映射 并 访问 这 些 内 存 。PCI IO 内 存 的 “问题 ”在 于 ， 它 不 适合 于 用 作 本 章 
的 示例 , 因为 无 法 预先 知道 RCI 内 存 会 映射 到 哪 一 段 物理 地 址 ,也 就 不 知道 访问 这 些 地 
址 段 是 否 安全 。 这 里 选择 讲解 ISA 内 存 段 ， 是 因为 它 虽然 不 那么 “干净 ”"， 但 更 适合 于 
运行 示例 代码 。 


为 了 示范 对 ISA 内 存 的 访问 、 我们 要 用 到 另 一 个 有 点 “愚笨 ”的 小 模块 《是 示例 产 代 码 
的 一 部 分 }。 实 际 上 这 个 模块 就 叫做 silly， 是 “Simple Tool for Unloading and Printing 
ISA Data ( 印 载 及 打印 ISA 数据 的 简单 工具 )” 的 缩写 。 


这 个 模块 补充 了 short 的 功能 , 它 可 以 访问 整个 384 KB 的 内 存 空间 , 还 演示 了 所 有 不 同 
的 W/O 函 数 。 该 模块 包括 四 个 使 用 不 同 的 数据 传输 函数 来 完成 相同 任务 的 设备 节点 。silly 
设备 就 像 1O 内 存 之 上 的 一 个 窗口 , 与 /dev/mem 的 工作 有 些 类 似 。 对 该 设备 可 以 读 、 写 
数据 或 lseek 到 一 个 任意 的 IO 内 存 地 址 。 


因为 silly 提 供 对 ISA 内 存 的 访问 , 所 以 启动 它 时 必须 把 物理 ISA 地 址 映射 到 内 核 虚 拟 地 
址 中 。 在 较 早 的 Linux 内 核 中 ， 只 需 简 单 地 把 要 用 的 ISA 地 址 赋值 给 一 个 指针 ， 然后 直 
接 解析 它 就 可 以 了 。 但 在 现在 的 内 核 中 , 必须 配合 虚拟 内 存 系统 工作 , 首先 重新 映射 该 
地 址 段 。 这 种 映射 是 由 ioremap 完成 的 ， 这 在 前 面 讲解 short 时 已 经 介绍 过 了 : 


#define ISA_BASE 0xA0000 
#define ISA_MAX 0x100000 ”/* 用 于 一 般 的 内 存 访问 */ 


/* 下 面 这 条 语句 出 现在 silly_init 中 */ 

io_base = ioremap (ISA_BASE, ISA MAX - ISA BASE}); 
ioremap 返回 一 个 指针 值 ， 以 供 ioread8 或 其 他 在 “访问 IO 内存” 一 节 中 介绍 的 函数 使 
用 。 


现在 回顾 示例 代码 中 这 些 函 数 是 如 何 使 用 的 。/dev/siliyb 的 次 设备 号 是 0, 通过 ioread8 
和 iowrite8 访问 1/0 内 存 。 下 面 的 代码 展示 了 读 操作 的 实现 ， 其 中 地 址 段 0xA0000 - 
0xFFFFF 作 为 0 ~ 0x5FFFF 段 的 一 个 虚拟 文件 对 待 。read 函数 中 包括 一 个 switch 语 
名 来 处 理 不 同 的 访问 模式 。 这 里 是 sillyb 的 case 语句 : 


case M 8: 
while (count) { 
*ptr = ioread8 (add); 
add++; 
count--; 
ptr+t+; 
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} 


break; 


下 面 的 两 个 设备 是 /dev/sillyw( 次 设备 号 为 1) 和 /dev/silly1 (次 设备 号 为 2)。 它 们 和 
1devisillyb 差不多， 只 不 过 分 别 使 用 了 16 位 和 32 位 的 函数 。 下 面 是 sil1y! 的 write 实现 ， 
也 是 switch 语句 中 的 一 部 分 : 
case M_32: 
while {count >= 4) { 
iowrite8(*(u32 *})ptr, add); 
add += 4; 
count -= 4; 
ptr += 4; 
} 


break; 
最 后 一 个 设备 是 /devsillycp (次 设备 号 为 3), 它 使 用 memcpy_*io 函数 完成 相同 的 任务 。 
它 的 read 实现 的 核心 部 分 如 下 : 
case M_memcpy: 


memcpy_fromio{ptr, add, count); 
break; 


因为 使 用 了 ioremap 来 提供 对 ISA 内 存 区 的 访问 , 故 印 载 sil1y 模 块 时 必须 调用 iounmap: 


iounmap (io_base); 


isa_readb 及 相关 函数 

看 看 内 核 源 代码 , 可 以 发 现 一 组 例 程 , 它们 的 名 字 类 似 于 isa_readb。 实际 上 , 上 面 描述 
的 每 个 函数 都 有 一 个 等 价 的 以 isa_ 开 头 的 函数 。 这 些 函 数 提供 了 一 种 不 需要 单独 的 
ioremap 步骤 就 能 访问 ISA 内 存 的 方法 。 不 过 内 核 开发 人 员 解释 说 ,这些 函数 只 是 暂时 
性 的 ， 用 于 帮助 移植 驱动 程序 ， 将 来 它们 会 消失 ， 所 以 最 好 避免 使 用 这 些 函 数 。 


快速 参考 
本 章 引 入 下 列 与 硬件 管理 有 关 的 符号 : 


#include <linux/kernel.h> 
void barrier (void) 


这 个 “软件 ”内 存 屏障 要 求 编译 器 考虑 执行 到 该 指令 时 所 有 的 内 存 易 变性 。 
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#include <asm/system.h> 

void rmb (void) ; 

void read_barrier_qepends (void); 

void wmb (void) ; 

void mb (void) 
硬件 内 存 屏障 。 要 求 CPU ( 和 编译 器 ) 执行 该 指令 时 检查 所 有 必需 的 内 存 读 、 写 
(或 二 者 兼 有 ) 已 经 执行 完毕 。 

#include <asm/io.h> 

unsigned inb(unsigned port); 

void outb (unsignedq char byte, unsigned port); 

unsigned inw(unsigned port); 

void outw(unsigned short word, unsigned port) ; 

unsigned inl (unsigned port); 

void outl (unsigned doubleword, unsigned port); 
这 些 函 数 用 于 读 和 写 I/O 端 口 。 如 果 用 户 空间 的 程序 有 访问 端口 的 权限 , 则 也 可 以 
调用 这 些 函 数 。 


unsigned inb_p(unsigned port); 


如 果 IO 操作 之 后 需要 一 小 段 延 时 ， 可 以 用 上 面 介绍 的 函数 的 6 个 暂停 式 的 变 体 。 
这 些 暂停 式 的 函数 都 以 请 结尾 。 

void insb(unsigned port, void *addr, unsigned long count); 

void outsb(unsigned port, void *addr, unsigned long count); 

void insw(unsigned port, void *addr, unsigned long count); 

void outsw (unsigned port, void *addr, unsigned long count); 

void insl{unsigned port, void *addr, unsigned long count); 

void outsl (unsigned port, void *addr, unsigned long count); 
这 些 “ 串 操作 函数 ”为 输入 端口 与 内 存 区 之 闻 的 数据 传输 做 了 优化 。 这 类 传输 是 通 
过 对 同一 端口 连续 读 / 写 count 次 实现 的 。 

#include <linux/ioport.h> 

struct resource *request. region(unsigned long start, unsigned long len, 

char *name); 

void release_region(unsigned long start, unsigned long len); 

int check_region(unsigned long start, unsigned long len); 
为 10 端口 分 配 资源 的 函数 。check_ 函数 在 成 功 时 返回 0， 出 错时 返回 负 值 , 但 我 
们 不 建议 使 用 该 函数 。 
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struct resource *request mem region{(unsigned long start, unsigned long len, 
char *name); 

void release,_ mem region{unsigned long start, unsigned long len); 

int check_ mem region(unsigned long start, unsigned long len); 


这 些 函 数 处 理 对 内 存 区 域 的 资源 分 配 。 


#include <asm/io.h> 
void *ioremap (unsigned long phys_addr, unsigned long size)}; 
void *ioremap_nocache (unsigned long phys_addr, unsigned long size); 
void iounmap (void *virt_addr); 
ioremap 把 一 个 物理 地 址 范围 重新 映射 到 处 理 器 的 虚拟 地 址 空间 ， 以 供 内 核 使 用 。 
iounmap 用 来 解除 这 个 映射 。 


#include <asm/io.h> 
unsigned int ioread8 {void *addr); 
unsigned int ioreadil6{void *addr); 
unsigned int ioread32 (void *addr); 
void iowrite8(u8 value, void *addr}; 
void iowritel6 {ui6 value, void *addr); 
void iowrite32(u32 value, void *addr); 
用 来 访问 MO 内 存 的 函数 。 
void ioread8_repl(void *addr, void *buf, unsigned 1ong count); 
void ioread16_repl(void *addr, void *buf, unsigned long count); 
void ioread32_rep (void *addr, void *buf, unsigned long count); 
void iowrite8_rep(void *addr, const void *buf, unsigned long count); 
void iowriteli6_rep (void *addr, const void *buf, unsigned long count) ; 
void iowrite32_rep(void *addr, const void *buf, unsigned long count); 
IO 内 存 访问 原 语 的 “重复 ”版 本 。 
unsigned readb{address); 
unsigned readw(address); 
unsigned readi (address); 
void writeb{unsigned value, address); 
void writew(unsigned value, address}; 
void writel (unsigned value, address); 
memset_ioladdress, value, count}; 
memcpy._fromio(ldest, source, nbytes); 
memcpy_toio(dest, source, nbytes); 


也 是 用 来 访问 WO 内 存 的 函数 ， 但 老 一 些 且 不 安全 。 
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void *ioport_map (unsigned long port, unsigned int count) ; 

void ioport unmap{(void *addr); 
如 果 驱 动 程序 作者 希望 将 IO 端口 作为 1O 内 存 一 样 进行 操作 , 则 可 将 这 些 端 口传 
递 给 ioport_map 国 数 。 不 再 使 用 这 种 映射 时 ,应 该 使 用 ioport_xmzrmap 国 数 解 除 映 
射 。 








尽管 有 些 设备 仅 通过 它们 的 IO 寄存 器 就 可 以 得 到 控制 , 但 现实 中 的 大 部 分 设备 却 要 比 
这 复杂 一 些 。 设 备 需要 与 外 部 世界 打交道 ， 比 如 旋转 的 磁盘 、 绕 卷 的 磁带 、 远 距离 连接 
的 电缆 等 等 。 这 些 设备 的 许多 工作 通常 是 在 与 处 理 器 完全 不 同 的 时 间 周 期 内 完成 的 , 并 
是 总 是 要 比 处 理 器 慢 。 这 种 让 处 理 器 等 待 外 部 事件 的 情况 总 是 不 能 令 人 满意 , 所 以 必须 
有 一 种 方法 可 以 让 设备 在 产生 某 个 事件 时 通知 处 理 器 。 


这 种 方法 就 是 中 断 。 一 个 “中 断 ” 仅 仅 是 一 个 信号 ， 当 硬件 需要 获得 处 理 器 对 它 的 关注 
时 ， 就 可 以 发 送 这 个 信号 。Linux 处 理 中 断 的 方式 很 大 程度 上 与 它 在 用 户 空间 处 理 信号 
是 一 样 的 。 在 大 多 数 情况 下 , 一 个 驱动 程序 只 需要 为 它 自己 设备 的 中 断 注册 一 个 处 理 例 
程 , 并 且 在 中 断 到 达 时 进行 正确 的 处 理 。 当 然 , 这 个 过 程 看 似 简 单 , 但 还 是 有 一 些 复杂 
性 的 。 需 要 特别 指出 的 是 , 随 着 中 断 处 理 例 程 运行 方式 的 不 同 ， 它 们 所 能 执行 的 动作 将 
会 受到 不 同 的 限制 。 


如 果 没 有 一 个 真正 的 硬件 设备 产生 中 断 ， 就 很 难 示 范 中 断 的 使 用 方法 。 因 而 ,本 章 中 的 
示例 代码 利用 并 口 来 产生 中 断 。 我 们 将 使 用 上 一 章 的 short 模 块 来 示范 ， 作 一 些小 的 改 
动 就 可 以 通过 并 口 来 产生 中 断 并 处 理 中 断 。 模 块 的 名 字 short 实际 是 指 short int (有 点 
像 C 语 言 )， 提 醒 我 们 这 个 模块 要 处 理 中 断 。 


但 是 在 我 们 深入 讨论 这 个 主题 之 前 ,， 有 一 点 值得 关注 。 从 本 质 上 讲 , 中断 处 理 例 程 和 其 
他 代码 并 发 运行 , 这 样 , 这些 处 理 例 程 会 不 可 避免 地 引起 并 发 问题 , 并 竞争 数据 结构 和 
硬件 。 如 果 读 者 已 经 阅读 了 第 五 章 的 相关 内 容 , 则 应 该 能 够 理解 这 里 的 意思 , 但 还 是 建 
议 读者 再 次 阅读 第 五 章 , 以 便 有 更 深入 的 理解 。 对 并 发 控制 技术 的 透彻 理解 对 处 理 中 断 
来 讲 非 常 重要 。 
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准备 并 口 
尽管 并 行 接口 很 简单 , 但 它 也 可 以 触发 中 断 . 打印 机 就 是 利用 这 种 能 力 来 通知 /Pp 驱动 程 
序 它 已 经 准备 好 接受 缓 钟 区 中 的 下 一 个 字符 的 。 


就 像 大 多 数 设备 一 样 , 在 没有 设 定 产生 中 断 之 前 , 并 口 是 不 会 产生 中 断 的 ; 并 口 的 标准 
规定 设置 端口 2 (0x37a、0x27a 或 者 其 他 端口 ) 的 第 4 位 将 启用 中 断 报告 。short 模 块 
在 初始 化 的 时 候 调 用 outb 来 设置 这 个 位 。 


在 中 断 处 于 启用 状态 时 , 每 当 引 脚 10 (所 谓 的 ACK 位 ) 的 电 平 发 生 从 低 到 高 改变 时 , 并 
口 就 会 产生 一 个 中 断 , 在 没有 把 打印 机 连 到 端口 上 的 情况 下 , 强制 接口 产生 中 断 的 最 简 
单 的 方法 是 连接 并 口 连 接 器 的 9 脚 和 10 脚 。 将 一 根 短 电线 插入 系统 后 面 并 口 连接 器 上 的 
对 应 的 孔 ， 就 可 以 连接 这 两 个 引 脚 。 并 口 的 引 脚 已 在 图 9-!1 中 说 明 。 


引 脚 9 是 并 口 数据 字 节 中 的 最 高 位 。 如 果 将 二 进 制 数据 写 人 /devw/shnort0、 就 会 引发 几 个 
中 断 ， 将 ASCII 码 文本 写 人 端口 则 不 会 产生 中 断 ， 因 为 此 时 没有 设置 这 个 最 高 位 。 


如 果 读 者 手头 有 一 台 打印 机 , 并 且 想 要 避免 焊接 电线 , 则 可 以 运行 本 章 后 面 针 对 真实 打 
印 机 的 中 断 处 理 例 程 。 注意 , 我 们 将 要 介绍 的 探测 久 数 依赖 于 在 引 脚 9 和 10 之 间 适 当 的 
跳 线 ， 因 此 ， 在 使 用 这 些 代码 做 探测 试验 的 时 候 需 要 它 。 


Cran 

安装 中 断 处 理 例 程 

如 果 读 者 确实 想 “ 看 到 ”产生 的 中 汤 ， 那 么 仅仅 通过 向 硬件 设备 写 信 是 不 够 的 ,还 必须 
要 在 系统 中 安装 一 个 软件 处 理 例 程 。 如 果 没 有 通知 Linux 内 核 等 待 用 户 的 中 断 ， 那 么 内 
核 上 只 会 简单 应 答 并 忽略 该 中 断 。 


中 断 信号 线 是 非常 珍贵 且 有 限 的 资源 , 尤其 是 在 系统 上 只 有 15 根 或 16 根 中 断 信号 线 时 
更 是 如 此 。 内 核 维护 了 一 个 中 断 信号 线 的 注册 表 , 该 注册 表 类 似 于 IO 端口 的 注册 表 。 模 
块 在 使 用 中 断 前 要 先 请 求 一 个 中 断 通道 (或 者 中 断 请 求 IRQ)， 然 后 在 使 用 后 释放 该 通 
道 。 我 们 将 会 在 后 面 看 到 , 在 很 多 场合 下 , 模块 也 希望 可 以 和 其 他 的 驱动 程序 共享 中 断 
信号 线 。 下 列 在 头 文件 <linux/sched.h> 中 声明 的 函数 实现 了 该 接口 : 
int request_irq(unsigned int irqg, 
irqreturn_t {*handler) (int, void *, struct Pt_regs 志和 
unsigned long flags， 


const char *dev_name, 
void *dev_id}; 


void free_irq(unsigned int irq, void *dev_id); 
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通常 ,从 request_irg 函数 返 回 给 请 求 函 数 的 值 为 0 时 表示 申请 成 功 , 为 负 值 时 表示 错误 
码 。 函数 返回 -EBUSY 表 示 书 经 有 男 一 个 驱动 程序 占用 了 你 要 请 求 的 中 断 信号 线 。 这些 
函数 的 参数 如 下 : 


unsigned int iirG 
这 是 要 申请 的 中 断 号 。 

irgqreturn t {*handler) (int, void *, struct pt_regs *) 
这 是 要 安装 的 中 断 处 理 函 数 指针 .我们 会 在 本 章 的 后 面部 分 讨论 这 个 函数 的 参数 合 
义 。 


unsigned 1ong flags 
如 读者 所 想 ， 这 是 一 个 与 中 断 管理 有 关 的 位 掩 码 选项 (将 在 后 面 描述 )。 

const char *dev_name 
传递 给 request_irq 的 字符 串 ， 用 来 在 /proc/interrupts 中 显示 中 断 的 拥有 者 〈 参 见 
下 节 )。 

void *dev_id 
这 个 指针 用 于 共享 的 中 断 信号 线 。 它 是 唯一 的 标识 符 , 在 中 断 信号 线 空间 时 可 以 使 
用 它 , 驱动 程序 也 可 以 使 用 它 指向 驱动 程序 自己 的 私有 数据 区 ( 用 来 识别 哪个 设备 
产生 中 断 )。 在 没有 强制 使 用 共享 方式 时 ,aev_ia 可 以 被 设置 为 NULL , 总 之 用 它 
来 指向 设备 的 数据 结构 是 一 个 比较 好 的 思路 。 我 们 会 在 本 章 后 面 的 “实现 处 理 例 
程 ”一 节 中 看 到 dev_ia 的 实际 应 用 。 


可 以 在 flags 中 设置 的 位 如 下 所 示 : 


SA_INTERRUPT 
当 该 位 被 设置 时 , 表明 这 是 一 个 “快速 ”的 中 断 处 理 例 程 。 快速 处 理 例 程 运行 在 中 
断 的 禁用 状态 下 (更 详细 的 主题 将 在 本 章 后 面 的 “快速 和 慢 速 处 理 例 程 ” 一 节 中 讨 
论 )。 

SA_SHIRQ 
该 位 表示 中 断 可 以 在 设备 之 间 共 享 。 共 享 的 概念 将 在 本 章 后 面 的 “中 断 共享 ” 一 节 
描述 。 

SA_SAMPLE_RANDOM 
该 位 指出 产生 的 中 断 能 对 /dev/random 设备 和 1deviurandom 设备 使 用 的 烂 池 
(entropy pool) 有 和 贡献。 从 这 些 设备 读 取 ， 将 会 返回 真正 的 随机 数 ， 从 而 有 助 于 应 
用 软件 选择 用 于 加 密 的 安全 密 钥 。 这 些 随机 数 是 从 一 个 箭 池 中 得 到 的 , 各 种 随机 事 
件 都 会 对 该 粮 池 作出 贡献 ， 如 果 读 者 的 设备 以 真正 随机 的 周期 产生 中 断 ,就 应 该 设 
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置 该 标志 位 。 另 一 方面 ， 如 果 中 断 是 可 预期 的 (例如 ， 帧 捕捉 卡 的 垂直 消 隐 )， 就 
不 值得 设置 这 个 标志 位 它 对 系统 的 灶 没 有 任何 贡献 。 能 受到 攻击 者 影响 的 设 
备 不 应 该 设置 该 位 , 例如 , 网 络 驱动 程序 会 被 外 部 的 事件 影响 到 预定 的 数据 包 的 时 
间 周 期 , 因而 也 不 会 对 箭 地 有 贡献 , 更 详细 的 信息 请 参见 drivers/char/random.c 文 
件 中 的 注释 。 


中 断 处 理 例 程 可 在 驱动 程序 初始 化 时 或 者 设备 第 一 次 打开 时 安装 。 虽 然 在 模块 的 初始 化 
函数 中 安装 中 断 处 理 例 程 看 起 来 是 个 好 主意 , 但 实际 上 并 非 如 此 。 因为 中 断 信 号 线 的 数 
量 是 非常 有 限 的 ， 我 们 不 想 肆 意 浪 费 。 计算机 拥有 的 设备 通常 要 比 中 断 信 号 线 多 得 多 ， 
如 果 一 个 模块 在 初始 化 时 请 求 了 IRQ, 那么 即使 驱动 程序 只 是 占用 它 而 从 未 使 用 , 也 将 
会 阻止 任意 一 个 其 他 的 驱动 程序 使 用 该 中 斯 。 而 在 设备 打开 的 时 候 申请 中 断 , 则 可 以 共 
享 这 些 有 限 的 资源 。 


这 种 情况 很 可 能 出 现 , 例如 , 在 运行 一 个 与 调制 解 调 器 共用 同一 中 断 的 帧 捕捉 卡 驱动 程 
序 时 , 只 要 不 同时 使 用 这 两 个 设备 就 可 以 共享 同一 中 断 。 用 户 在 系统 启动 时 装载 特殊 的 
设备 模块 是 一 种 普遍 做 法 ,即使 该 设备 很 少 使 用 。 数据 捕捉 卡 可 能 会 和 第 二 个 串口 使 用 
相同 的 中 断 ， 我 们 可 以 在 捕获 数据 时 ， 避 免 使 用 调制 解 调 器 连接 到 互联 网 服务 供应 商 
(ISP)， 但 是 如 果 为 了 使 用 调制 解 调 器 而 不 得 不 卸载 一 个 模块 ， 总 是 令 人 不 快 的 。 


调用 request_irg 的 正确 位 置 应 该 是 在 设备 第 一 次 打开 , 硬件 被 告知 产生 中 断 之 前 。 调 用 
Jree_irg 的 位 置 是 最 后 一 次 关闭 设备 、 硬 件 被 告知 不 用 再 中 断 处 理 器 之 后 。 这 种 技术 的 
缺点 是 必须 为 每 个 设备 维护 一 个 打开 计数 ， 这 样 我 们 才能 知道 什么 时 候 可 以 禁用 中 断 。 





尽管 我 们 已 经 讨论 了 不 应 该 在 装载 模块 时 调用 reguest_irg,， 但 sport 模块 还 是 在 装载 时 
请 求 了 它 的 中 断 信号 线 , 这 样 做 的 方便 之 处 是 , 我 们 可 以 直接 运行 测试 程序 ,而 不 需要 
额外 运行 其 他 的 进程 来 保持 设备 的 打开 状态 。 因 此 ，shori 在 它 自己 的 初始 化 函数 
(short_init) 中 请 求 中 断 ， 而 不 是 像 真正 的 设备 驱动 那样 在 short_open 中 请 求 中 断 。 


下 面 这 段 代 码 要 请 求 的 中 断 是 short_irq,， 对 这 个 变量 的 实际 赋值 操作 (例如 ， 决 定 
使 用 哪个 IRQ) 会 在 后 面 给 出 , 因为 它 与 当前 的 讨论 无 关 。short_base 是 并 口 使 用 的 
IO 地 址 空间 的 基地 址 ; 向 并 口 的 2 号 寄存 器 写 和 信 ， 可 以 启用 中 断 报 告 。 


if {short_irg >= 0) { 
result = request_irgqlshort_irqg, short_interrupt, 
SA_INTERRUPT, "short", NULL); 
if (result) { 
printk (KERN_INFO "short: can't get assigned irqg %i\n", 
short_irq); 
short_irqg = -1; 
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else { /* 真正 启用 中 断 一 一 假定 这 是 一 个 并 口 */ 
Outb{0x10, short_base+2),; 
} 
} 


读者 可 从 代码 看 出 ,已 经 安装 的 中 断 处 理 例 程 是 一 个 快速 的 处 理 例 程 ( SA_INTERRUPT)， 
不 支持 中 断 共 享 (没有 设置 Sa_SHIRQ)， 并 且 对 系统 的 米 (也 没有 设置 SA_SAMPLE_ 
RANDOM) 没有 贡献 。 最 后 ， 代 码 执行 ourb 调用 来 启用 并 口 的 中 断 报告 。 


值得 指出 的 是 ，i386 和 x86_64 体系 架构 定义 了 如 下 函数 ， 用 于 查询 某 个 中 断 线 是 否 可 
用 : 
int can_request_irq(unsigned int irg, unsigned long flags); 


如 果 能 够 成 功 分 配给 定 的 中 断 , 则 该 函数 返回 非 零 值 ,但 要 注意 ,在 调用 can_request_irq 
和 request_irq 之 间 ， 始 终 可 能 发 生 一 些 事情 来 改变 现状 。 


/proc 接口 


当 硬 件 的 中 断 到 达 处 理 器 时 , 一 个 内 部 计数 递增 , 这 为 检查 设备 是 否 按 预期 工作 提供 了 
一 种 方法 ， 产 生 的 中 断 报 告 显示 在 文件 /proc/interrupts 中 。 下 面 是 一 个 双 处 理 器 的 
Pentium 系统 启动 几 天 后 该 文件 的 快照 : 


root@montalcino: /bike/corbet /write/ldd3/src/short# m /proc/interrupts 


CPU0 CPU1 
Ds 4848108 34 IO-APIC-edge timer 
2: 0 0 XT-PIC cascade 
8: 3 于 IO-APIC-edge rtc 
10: 4335 1 IO-APIC-~level aic7xxx 
Ls 8903 0 IO-APIC-level uhci_hcd 
二 之 49 1 IO-APIC-edge i8042 
NMI: 0 0 
LOC : 4848187 4848186 
ERR: 0 
MIS: 0 


第 一 列 是 IRQ 号 , 其 中 明显 缺少 一 些 中 断 ， 这 说 明 该 文件 只 会 显示 那些 已 经 安装 了 中 断 
处 理 例 程 的 中 断 。 例 如 ， 第 一 个 串口 〈 使 用 中 断 号 4) 没有 显示 ， 说 明 我 们 没有 使 用 调 
制 解 调 器 。 实 际 上 ,即使 早 些 时 候 已 经 使 用 过 调制 解 调 器 ,而 如 果 在 文件 快照 的 时 候 没 
有 使 用 的 话 ， 也 不 会 出 现在 这 个 文件 中 。 捉 口 驱 动 程序 具有 良好 的 行为 , 在 设备 被 关闭 
的 时 候 会 释放 它们 的 中 断 处 理 例 程 。 


文件 /proclinterrupts 给 出 了 已 经 发 送 到 系统 上 每 一 个 CPU 的 中 断 数 量 。 正 如 读者 能 从 
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输出 中 看 到 的 , Linux 内 核 通 常会 在 第 一 个 CPU 上 处 理 中 断 , 以 便 最 大 化 缓存 的 本 地 性 
《 注 1)。 最 后 两 列 给 出 了 处 理 中 断 的 可 编程 中 断 控制 器 (驱动 程序 作者 不 需要 关心 该 控 
制 器 ) 信 息 , 以 及 注册 了 中 断 处 理 例 程 的 设备 名 称 { 这 和 传递 给 request_irq 的 dev_name 
参数 一 样 )。 


/proc 树 结 构 中 还 包含 男 一 个 与 中 断 相关 的 文件 ， 即 /proc/stat。 你 有 时 会 发 现 某 个 文件 
很 有 用 , 有 了 时 又 会 更 喜欢 使 用 另外 的 文件 。 /proc/stat 记 录 了 一 些 系 统 活动 的 底层 统计 信 
息 ， 包括 ( 但 不 仅 限于 ) 从 系统 启动 开始 接收 到 的 中 断 数 量 ，stat 文件 的 每 行 都 以 一 个 
字符 串 开 始 , 它 是 这 行 的 关键 字 。intr 标 记 正 是 我 们 需要 的 , 下 列 (被 截断 和 分 行 ) 快 
照 是 在 前 一 个 快照 不 久之 后 获得 的 : 


intr 5167833 5154006 2 0 2 4907 0 2 68 4 0 4406 9291 50 0 0 


第 一 个 数 是 所 有 中 断 的 总 数 , 而 其 他 的 每 个 数 都 代表 一 个 单独 的 IRQ 信号 线 ， 从 中 断 0 
开始 。 这 个 快照 显示 4 号 中 断 已 经 发 生 了 了 4907 次 ,尽管 当前 并 没有 安装 它 的 处 理 例 程 。 
如 果 正 在 测试 的 驱动 程序 在 每 次 打开 、 关闭 设备 的 周期 内 请 求 和 释放 中 断 的 话 , 读者 就 
会 发 现 /proc/stat 比 /proc/interrupts 更 有 用 。 


两 个 文件 的 另 一 个 不 同 之 处 是 interrupts 文件 不 依赖 于 体系 结构 ， 而 stat 文件 则 是 依赖 
的 : 字段 的 数量 依赖 于 内 核 之 下 的 硬件 。 可 用 的 中 断 数量 从 SPARC 体 系 结构 上 的 15 个 ， 
到 IA-64 结构 和 一 些 其 他 系统 上 的 256 个 之 间 变 化 。 值 得 注意 的 是 ， 当 前 x86 体系 结构 
上 定义 的 中 断 数 量 是 224 个 ,不 是 读者 猜测 的 16 个 ; 这 可 以 从 头 文件 include/asm-386/ 
irq.h 中 得 到 解释 , 它 取决 于 Linux 使 用 的 体系 结构 的 限制 而 不 是 特定 实现 的 限制 ( 像 16 
个 中 断 源 的 老式 PC 中 断 控制 器 )。 


下 面 是 文件 /proclinterrupts 在 一 个 IA-64 系统 上 的 快照 。 正如 读者 看 见 的 , 除了 将 常见 
中 断 源 通过 不 同 的 硬件 路 由 之 外 ， 该 输出 和 上 面 32 位 系统 给 出 的 结果 非常 相似 。 


CPU0 CPU1 

27: 1705 34141 IO-SAPIC-level qlal280 
40: 0 0 SAPIC perfmon 
43: 913 6960 IO-SAPIC-level eth0 

47; 26722 146 IO-SAPIC-level usb-uhci 
64:; 3 6 IO-SAPIC-edge ide0 

80: 4 IO-SAPIC-edge keyboard 
89: 0 0 IO-SAPIC-edge PS/2 Mouse 
239: 5606341 5606052 SAPIC timer 
254: S35 52815 SAPIC IPI 
NMI 0 0 

ERR : 0 





这 虽然 某 些 大 型 系统 会 显 式 地 使 用 中 断 平 衡 方 案 在 系统 范围 内 传播 中 断 。 
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自动 检测 IRQ 号 


驱动 程序 初始 化 时 , 最 迫切 的 问题 之 一 就 是 如 何 决 定 设备 将 要 使 用 哪 条 IRQ 信和 号 线 。 驱 
动 程序 需要 这 个 信息 以 便 正确 地 安装 处 理 例 程 ,尽管 程序 员 可 以 要 求 用 户 在 装载 时 指定 
中 断 号 , 但 这 不 是 一 个 好 习惯 , 因为 大 部 分 时 间 用 户 不 知道 这 个 中 断 号 , 或 者 是 因为 用 
户 没 有 配置 跳 线 或 者 是 因为 设备 是 无 跳 线 的 。 因此 , 中 断 号 的 自动 检测 对 于 驱动 程序 可 
用 性 来 说 是 一 个 基本 要 求 。 


有 时 ,自动 检测 依赖 于 一 些 设备 拥有 的 默认 特性 。 既然 如 此 ， 驱 动 程序 可 以 假定 设备 使 
用 了 这 些 默 认 值 。 这 也 是 short 在 检测 并 口 时 的 默认 行为 , 正如 short 的 代码 所 给 出 的 那 
样 ， 其 实现 相当 简单 : 
if (short_irg < 0) /* 尚未 指定 : 强制 使 用 默认 值 */ 
Switch(short_base) { 
case 0x378: short_irq = 7; break; 
case 0x278: short_irq = 2; break; 


case 0x3bc: short_irq = 5; break; 
} 


这 段 代码 根据 选 定 的 IO 地 址 的 基地 址 分 配 中 断 号 ,也 允许 用 户 在 装载 时 用 下 面 的 命令 
行 来 覆盖 默认 值 : 


insmod ./short.ko irq=x 
short_base 上 默认 为 0x378， 所 以 short_irg 上 默认 为 7。 


有 些 设备 的 设计 更 为 先进 , 会 简单 地 “声明 ”它们 要 使 用 的 中 断 。 这 样 ， 驱 动 程序 就 可 
以 通过 从 设备 的 某 个 IO 端口 或 者 PCI 配置 空间 中 读 出 一 个 状态 字 来 获得 中 断 号 。 当 目 
标 设备 有 能 力 告诉 驱动 程序 它 将 使 用 的 中 断 号 时 ， 自 动 检测 IRQ 号 只 是 意味 着 探测 设 
备 , 而 不 需要 额外 的 工作 来 探测 中 断 。 幸 运 的 是 , 大 多 数 现代 硬件 以 这 种 方式 工作 ,， 比 
如 ，PCI 标 准 要 求 外 设 声明 它们 打算 使 用 的 中 断 线 ， 这 样 就 能 解决 这 个 问题 。 我 们 将 在 
第 十 二 章 深 入 讨论 PCI 标准 。 


令 人 遗憾 的 是 , 并 不 是 所 有 的 设备 都 对 程序 员 很 友好 , 自动 检测 可 能 还 是 需要 做 一 些 探 
测 工作 。 这 在 技术 上 很 简单 : 驱动 程序 通知 设备 产生 中 断 并 观察 会 发 生 什么 。 如 果 一 切 
正常 ， 那 么 只 有 一 条 中 断 信号 线 被 激活 。 


尽管 从 理论 上 讲 探 测 过 程 很 简单 , 但 实际 上 实现 起 来 可 就 不 那么 清晰 了 。 我 们 看 看 执行 
该 任务 的 两 种 方法 : 调用 内 核定 义 的 辅助 函数 ， 或 者 实现 我 们 自己 的 版 本 。 
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内 核 帮 助 下 的 探测 


Linux 内 核 提供 了 一 个 底层 设施 来 探测 中 断 号 。 它 只 能 在 非 共享 中 断 的 模式 下 工作 , 但 
是 大 多 数 硬件 有 能 力 工作 在 共享 中 断 的 模式 下 ,并 可 提供 更 好 的 找到 配置 中 断 号 的 方法 。 
内 核 提供 的 这 一 设施 由 两 个 函数 组 成 ， 在 头 文件 <linux/interrupt.h> 中 声明 (该 文件 也 
描述 了 探测 机 制 ): 


unsigned long probe_irqg on{void); 
这 个 函数 返回 一 个 末 分 配 中 断 的 位 掩 码 ,驱动 程序 必须 保存 返回 的 位 掩 码 , 并 且 将 
它 传递 给 后 面 的 probe_irq_off 函数 ， 调 用 该 函数 之 后 ， 驱 动 程序 要 安排 设备 产生 
至 少 一 次 中 断 。 

int probe_irqg off (unsigned long); 
在 请 求 设备 产生 中 断 之 后 , 驱动 程序 调用 这 个 函数 , 并 将 前 面 probe_irg_on 返 回 的 
位 掩 码 作 为 参数 传递 给 它 。 probe_irqg_off 返 回 “probe_irq_on” 之 后 发 生 的 中 断 编 
号 。 如 果 没 有 中 断 发 生 ， 就 返回 0 (因此 ,IRQ 0 不 能 被 探测 到 , 但 在 任何 已 支持 
的 体系 结构 上 ， 没 有 任何 设备 能 够 使 用 IRQ 0 )。 如 果 产 生 了 多 次 中 断 ( 出现 二 义 
性 )，probe_irg_off 会 返回 一 个 负 值 。 


程序 员 要 注意 在 调用 probe_irqg_on 之 后 启用 设备 上 的 中 断 , 并 在 调用 probe_irq_off 之 前 
禁用 中 断 。 此 外 要 记 住 ， 在 probe_irqg_o 六 之 后 ， 需 要 处 理 设备 上 待 处 理 的 中 断 。 


short 模 块 演示 了 如 何 进 行 这 样 的 探测 。 如 果 指 定 probe=1 选项 装载 模块 , 并 且 并 口 连 
接 器 的 引 脚 9 和 10 相连， 就 会 执行 下 面 的 代码 进行 中 断 信号 线 的 检测 : 


int count = 0; 
do { 
unsigned long mask; 


mask = probe irg on{); 
outb_p(0x10,short_base+2); /* 启用 中 断 报告 */ 
outb_p{0x00,short_base);  /* 清除 该 位 */ 
outb_p (OxFF, short_base); /* 设置 该 位 : 中 断 ! */ 
outb_p(0x00,short_base+2); /* 禁用 中 断 报 告 */ 
udelay (5); /* 留 给 中 断 探测 一 些 时 间 */ 

Short_ird = probe_irg_off (mask); 


if {short_irg = = 0) { /* 没有 找到 ? */ 
printk (KERN_INFO "short: no irq reported by probe\n"}); 
short_irq = -1; 


一 


* 如 果 已 经 有 多 个 中 断 线 被 激活 ， 则 结果 为 负 值 。 
* 我 们 应 该 服务 该 中 断 (1pt 端口 并 不 需要 ) 并 再 次 重 试 。 
* 最 多 重 试 五 次 ， 然 后 放弃 。 
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} while (short_irq < 0 && count++ < 5); 
if (Short_irq < 0) 
printk("short: probe failed %i times, giving up\n", count); 


注意 在 调用 probe_irqg_off 之 前 对 udelay 的 使 用 。 这 取决 于 所 使 用 的 处 理 器 速度 , 读者 可 
能 不 得 不 安排 一 个 很 短 的 延 时 ， 以 保证 留 给 中 断 足 够 的 传递 时 间 。 


探测 是 一 个 很 耗 时 的 任务 ， 尽管 short 的 探测 耗 时 不 多 ， 但 是 像 帧 捕捉 卡 的 探测 就 至 少 
需要 20 毫 秒 的 延迟 (这 对 处 理 器 来 说 已 经 是 很 长 的 时 间 了 )， 而 探测 其 他 的 设备 可 能 要 
花费 更 多 的 时 间 。 因 此 ， 最 好 的 方法 就 是 只 在 模块 初始 化 的 时 候 探测 中 断 信号 线 一 次 ， 
这 与 是 否 在 设备 打开 时 (应 该 这 样 做 ) 或 者 在 初始 化 函数 内 (不 推荐 这 样 做 ) 安装 中 断 
处 理 例 程 无 关 。 


值得 注意 的 是 ， 在 一 些 平 台 (PowerPC、M68k、 大 部 分 MIPS 的 实现 以 及 两 个 SPARC 
版 本 ) 上 , 探测 是 没有 必要 的 , 因此 前 面 的 函数 只 是 一 些 空 的 占 位 符 , 有 时 叫做 “useless 
ISA nonsense”。 而 在 其 他 的 平台 上 探测 只 是 为 ISA 设备 实现 的 。 总 之 ， 大 多 数 体系 结 
构 都 定义 了 函数 黄 至 是 空 的 ) 来 简化 现 有 的 设备 驱动 程序 的 移植 。 


DIY 探测 


探测 也 可 以 由 驱动 程序 自己 实现 。 如 果 装 载 时 指定 probe=2，short 模 块 将 对 IRQ 信 号 
线 进行 DIY 探测 。 


这 种 机 制 与 先前 描述 的 内 核 帮 助 下 的 探测 是 一 样 的 : 启用 所 有 未 被 占用 的 中 断 , 然后 观 
察 会 发 生 什么 。 但 是 ， 我 们 要 充分 发 挥 对 有 关 设 备 的 了 解 。 通 常 ， 设 备 可 以 使 用 3 或 4 
个 IRQ 号 中 的 一 个 来 进行 配置 , 探测 这 些 IRQ 号 , 使 我 们 能 够 不 必 测 试 所 有 可 能 的 IRQ 
就 检测 到 正确 的 IRQ 号 。 


在 short 的 实现 中 ,我 们 假定 可 能 的 IRQ 值 是 3、5、7 和 9,， 这 些 编号 实际 上 是 并 口 设 
备 人 允许 用 户 选 择 的 一 些 中 断 编 号 值 。 


下 面 的 代码 通过 测试 所 有 “可 能 "的 中 断 并 观察 将 要 发 生 的 事情 来 进行 中 断 探测 。 trials 

数组 列 出 了 以 0 作为 结束 标志 的 需要 测试 的 IRQ, tried 数 组 用 来 记录 哪个 处 理 例 程 被 

驱动 程序 注册 了 。 
int trials[] 


int tried[] 
dm 1 Count 


[| 
~ 


/i* 

* 为 所 有 可 能 的 中 断 线 安装 探测 处 理 例 程 。 

* 记录 那些 目前 空闲 的 结果 (0 为 成 功 ， 否 则 为 -EBUSY) 仅仅 是 为 了 释放 已 获得 的 资源 
ey 
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for (i = 0; trials[(i}; i++) 
tried[i] = request_irq(trials[i], short_probing, 
SA_INTERRUPT, "short probe", NULL); 


do { 
short_irq = 0; /* 什么 也 未 获得 */ 
outb_p(0x10,short_base+2); /* 启用 中 断 */ 
outb_p(0x00, short_base); 
outb_p{0xFF, short_base); /* 切换 中 断 位 */ 
outb_p(0x00,short_base+2); /* 禁用 中 断 */ 
udelay (5); /* 留 给 探测 一 些 时 间 */ 


/* 处 理 例 程 已 经 设置 了 相应 的 值 */ 
if (short_irqg = = 0) { /* 没有 找到 ? */ 
printk (KERN_INFO "short: no irq reported by probe\n"); 
} 
/* 
* 如 果 已 经 有 多 个 中 断 线 被 激活 ， 则 结果 为 负 。 
* 我 们 应 该 服务 该 中 断 (1pt 端口 并 不 需要 ) 并 再 次 重 试 。 
* 最 多 重 试 五 次 。 
} while (short_irq <=0 && count++ < 5); 


/* 在 循环 结束 后 、 印 载 处 理 例 程 */ 
for {i = 0; trials[i]; i++) 
if (tried[i) = = 0) 
free_irq(trials[il，NULLD) ; 


if (short_irg < 0) 
printk("short: probe failed %i times, giving up\n", count); 


有 时 ， 我 们 无 法 预知 “可 能 的 ”IRQ 值 。 在 这 种 情况 下 ， 需 要 探测 所 有 的 空闲 中 断 号 ， 
而 不 仅仅 是 那些 由 trialsf] 数 组 列 出 的 中 断 号 。 为 了 探测 所 有 的 中 断 , 不 得 不 从 IRQ 
0 探测 到 IRQ NR_IRQS-1，NR_IRQS 是 在 头 文件 <asm/irg.h> 中 定义 的 具有 平台 相关 
性 的 常数 。 


现在 我 们 就 剩 下 探测 处 理 例 程 本 身 了 ， 处 理 例 程 的 任务 是 根据 实际 收 到 的 中 断 号 更 新 
short_irq 变 量 , short_irq 的 值 为 0 意味 着 “什么 也 没有 ”, 负 值 意味 着 存在 “二 义 
性 ”。 我 们 选择 这 些 值 是 为 了 和 probe_irg_off 保 持 一 致 ,这 样 , 就 可 以 在 short.c 中 使 用 
同样 的 代码 调用 任何 一 种 探测 方法 。 
irqreturn_t short_probing(int irdgq, void *dev_id, struct pt_regs *regs) 
{ 
if (short_irq = = 0) short_irqg = irq; /* 找到 */ 
if (short_irg != irq) short_irg = -irq; /* 出 现 二 义 性 */ 


return IRQ_HANDLED; 
} 


处 理 例 程 的 参数 将 在 稍 后 介绍 。 只 要 了 解 参数 irg 是 要 处 理 的 中 断 号 , 就 是 以 理解 上 面 
的 函数 了 。 | 
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快速 和 慢 速 处 理 例 程 


老 版 本 的 Linux 内 核 做 了 很 多 努力 才 区 分 出 “快速 ”和 “ 慢 速 ”中 断 。 快 速 中 断 是 那些 
可 以 很 快 被 处 理 的 中 断 , 而 处 理 慢 速 中 断 则 会 明显 花费 更 长 的 时 间 。 当 慢 速 中 断 正 被 处 
理 时 , 慢 速 中 断 要 求 处 理 器 可 以 再 次 启用 中 断 。 否 则 , 需要 快速 处 理 的 任务 可 能 会 被 延 
述 过 长 。 


在 现代 内 核 中 , 很 多 快速 中 断 和 慢 速 中 断 的 区 别 已 经 消失 了 。 剩 下 的 只 有 一 个 : 快速 中 
断 (使 用 SA_INTERRUPT 标 志 申 请 的 中 断 ) 执行 时 ,当前 处 理 器 上 的 其 他 所 有 中 断 都 被 
禁止 。 注意 ,其 他 的 处 理 器 仍然 可 以 处 理 中 断 , 尽管 从 来 不 会 看 到 两 个 处 理 器 同时 处 理 
同一 IRQ 的 情况 。 


那么 , 读者 的 驱动 程序 应 该 使 用 哪 种 中 断 处 理 例 程 昵 ”在 现代 系统 中 ,SA_INTERRUPT 
只 是 在 少数 几 种 特殊 情况 (例如 定时 器 中 断 ) 下 使 用 。 读 者 不 应 该 使 用 SA_INTERRUPT 
标志 ， 除 非 有 足够 必要 的 理由 想 要 在 其 他 中 断 被 禁用 的 时 候 运行 自己 的 中 断 处 理 例 程 。 


这 段 论述 足以 满足 大 多 数 读者 ,但 有 些 熟 悉 硬 件 或 者 对 计算 机 有 着 强烈 兴趣 的 读者 或 许 
需要 深入 了 解 一 些 信 息 。 如 果 不 想 了 解 内 部 细节 ， 可 以 跳 过 下 一 节 。 


x86 平台 上 中 断 处 理 的 内 幕 

下 面 的 描述 是 从 2.6 内 核 中 的 文件 arch/i386/kernellirg.c、arch/i386/kernel/apic.c、 arch/ 
i386/kernellentry.S、 arch/i386/kernel/i8259.c 以 及 includelasm-i386/hw_irq.h 中 得 出 的 。 
虽然 基本 概念 是 相同 的 ， 但 是 硬件 细节 还 是 与 其 他 平台 有 所 区 别 。 


最 底层 的 中 断 处 理 代 码 可 见 entry.5 文 件 , 该 文件 是 一 个 汇编 语言 文件 , 完成 了 许多 机 器 
级 的 工作 。 这 个 文件 利用 几 个 汇编 技巧 及 一 些 宏 , 将 一 段 代 码 用 于 所 有 可 能 的 中 断 。 在 
所 有 情况 下 , 这 段 代 码 将 中 断 编 号 压 和 人 栈 ， 然 后 跳 转 到 一 个 公共 段 ， 而 这 个 公共 段 会 调 
用 在 irq.c 中 定义 的 do_IRQ 函数 。 


do_1RC 做 的 第 一 件 事 是 应 答 中 断 , 这样 中 断 控制 器 就 可 以 继续 处 理 其 他 的 事情 了 . 然后 
该 函数 对 于 给 定 的 IRQ 号 获得 一 个 自 旋 锁 ， 这 样 就 阻止 了 任何 其 他 的 CPU 处 理 这 个 
IRQ。 接 着 清除 几 个 状态 位 (包括 一 个 我 们 很 快 会 讲 到 的 IRQ_WAITING)， 然后 寻找 这 
个 特定 IRQ 的 处 理 例 程 。 如 果 没 有 处 理 例 程 ， 就 什么 也 不 做 ; 自 旋 锁 被 释放 , 处理 任 何 
待 处 理 的 软件 中 断 ， 最 后 do_IRQ 返回 。 


通常 , 如 果 设 备 有 一 个 已 注册 的 处 理 例 程 并 且 发 生 了 中 断 , 则 函数 handie_IRQ_event 会 
被 调用 以 便 实际 调用 处 理 例 程 。 如 果 处 理 例 程 是 慢 速 类 型 ( 即 SA_INTERRUPT 未 被 设 
置 )， 将 重新 启用 硬件 中 断 ， 并 调用 处 理 例 程 。 然 后 只 是 做 一 些 清理 工作 ， 接 着 运行 软 
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件 中 断 ， 最 后 返回 到 常规 工作 。 作 为 中 断 的 结果 (例如 ， 处理 例 程 可 以 wake_up 一 个 进 
程 ), “常规 工作 ”可 能 已 经 被 改变 ， 所 以 ， 从 中 渐 返回 时 发 生 的 最 后 一 件 事情 可 能 就 是 
一 次 处 理 器 的 重新 调度 。 


IRQ 的 探测 是 通过 为 每 个 缺少 中 断 处 理 例 程 的 IRQ 设 置 IRQ_WAITING 状 态 位 来 完成 的 。 
当中 断 产生 时 ， 因 为 没有 注册 处 理 例 程 ，do_IRQ 清除 该 位 然后 返回 。 当 probe_irqg_off 
被 一 个 驱动 程序 调用 的 时 候 ， 只 需要 搜索 那些 没有 设置 TRQ_WAITING 位 的 IRQ 。 


实现 中 断 处 理 例 程 


迄今 为 止 , 我 们 已 经 学 会 了 如 何 注册 一 个 中 断 处 理 例 程 , 但 是 还 没有 编写 过 中 断 处 理 例 
程 。 实 际 上 ， 处 理 例 程 没有 什么 与 众 不 同 的 地 方 一 一 它们 也 是 普通 的 C 程序 。 


唯一 特殊 的 地 方 就 是 处 理 例 程 是 在 中 断 时 间 内 运行 的 ， 因 此 它 的 行为 会 受到 一 些 限制 。 
这 些 限 制 与 我 们 在 内 核定 时 器 中 看 到 的 一 样 。 处 理 例 程 不 能 向 用 户 空 间 发 送 或 者 接收 数 
据 , 因为 它 不 是 在 任何 进程 的 上 下 文中 执行 的 , 处 理 例 程 也 不 能 做 任何 可 能 发 生 休 了 眠 的 
操作 ,例如 调用 wait_event、 使 用 不 带 GFP_RATOMITC 标志 的 内 存 分 配 操作 ， 或 者 锁 住 一 
个 信号 量 等 等 。 最 后 ， 处 理 例 程 不 能 调用 schdule 函数 。 


中 断 处理 例 程 的 功能 就 是 将 有 关中 断 接 收 的 信息 反馈 给 设备 ,并 根据 正在 服务 的 中 断 的 
不 同 含义 对 数据 进行 相应 的 读 或 写 。 第 一 步 通 常 要 清除 接口 卡 上 的 一 个 位 , 大 多 数 硬 件 
设备 在 它们 的 “interrupt-pending (中 汤 挂 起 )” 位 被 清除 之 前 不 会 产生 其 他 的 中 断 。 根 
据 硬件 的 工作 方式 , 这 个 步骤 可 能 在 最 后 而 不 是 第 一 个 步骤 执行 ; 也 就 是 说 , 这 里 不 存 
在 永恒 规则 。 有 些 设备 不 需要 这 个 步骤 ， 因 为 它们 没有 “中 断 挂 起 ”位 ,这 样 的 设备 是 
很 少 的 ， 但 并 口 设备 却 是 其 中 的 一 种 。 由 于 这 个 原因 ，short 不 需要 清除 这 样 的 位 。 


中 断 处 理 例 程 的 一 个 典型 任务 就 是 : 如 果 中 断 通知 进程 所 等 待 的 事件 已 经 发 生 , 比如 新 
的 数据 到 达 ， 就 会 唤醒 在 该 设备 上 休眠 的 进程 。 


还 是 举 帧 捕捉 卡 的 例子 , 一 个 进程 通过 连续 地 读 该 设备 来 获取 一 系列 图 像 ; 在 读 每 一 帧 
数据 前 , reaa 调 用 都 是 阻塞 的 , 每 当 新 的 数据 帧 到 达 时 , 中 断 处 理 例 程 就 会 唤醒 此 进程 。 
这 里 假定 捕捉 卡 会 中 断 处 理 器 以 便 通 知 每 一 帧 数据 的 成 功 到 达 。 


无 论 是 快速 还 是 慢 速 处 理 例 程 , 程序 员 都 应 该 编写 执行 时 间 尽 可 能 短 的 处 理 例 程 。 如果 
需要 执行 一 个 长 时 间 的 计算 任务 , 最 好 的 方法 是 使 用 tasklet 或 者 工作 队列 在 更 安全 的 时 
间 内 调度 计算 任务 (我 们 将 在 “项 半 和 底 半 ”一 节 中 找 述 如 何 用 这 种 方法 来 延迟 处 理工 
作 )。 


在 short 示 例 代码 中 ,中 断 处 理 例 程 调用 了 do_gettimeofday， 并 输出 当前 时 间 到 大 小 为 
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一 页 的 循环 缓冲 区 中 , 然后 唤醒 任何 一 个 读 取 进 程 , 告诉 该 进程 现在 有 新 的 数据 可 以 读 
取 。 

irqreturn t short_ interrupt{int irG，Vvoid *dev_id, struct pt._regs *regs) 

{ 


struct timeval tv; 
int written; 


do_gettimeofday (&tv); 


/* 写 人 一 个 16 字 节 的 记录 。 假 定 PAGE_SIZE 是 16 的 倍数 */ 
Written = sprintf({char *}short head,"%08u.%06u\n", 

{int) (tv.tv_sec % 100000000), {int) (tv.tv usec)); 
BUG_ON (written != 16}); 
short_incr_bpl&short_ head, written}); 
wake_up_interruptible{(&short_queue); /* 唤醒 任何 读 开 进程 */ 
return IRQ_HANDLED; 

} 


尽管 上 述 代码 很 简单 ， 却 代表 了 中 断 处 理 例 程 的 典型 工作 流程 。 它 所 调用 的 
short_incr_bp 销 数 定义 如 下 : 
static inline void short、incr_bp (volatile unsigned long *index, int delta) 
{ 
unsigned long new = *index + delta; 
barrier(); /* 禁止 对 前 后 两 条 语句 的 优化 */ 
*index = (new >= (short buffer + PRGE_SIZE) ) ? short_buffer : new; 
} 


这 个 函数 的 实现 非常 痢 慎 , 它 可 以 将 指针 限制 在 循环 缓冲 区 的 范围 之 内 , 并 且 不 会 因为 
传递 一 个 不 正确 的 值 而 返回 对 barrier 的 调用 将 阻止 编译 器 在 函数 的 两 行 语句 之 间 做 任 
何 优化 工作 。 如 果 没 有 这 个 屏障 , 编译 器 可 能 会 优化 出 一 个 新 的 变量 并 将 其 直接 赋值 给 
*index。 在 index 发 生 反 转 的 短暂 时 间 内 , 这 种 优化 可 能 会 产生 不 正确 的 索引 值 . 通过 
仔细 处 理 其 他 线程 可 见 的 值 来 避免 出 现 不 一 致 的 情况 ,我 们 就 可 以 不 使 用 锁 而 安全 操作 
循环 缓冲 区 的 指针 。 


用 来 读 取 我 们 在 中 断 时 间 内 填充 的 缓冲 区 内 容 的 设备 文件 是 /dev/shortint。 我 们 在 第 九 
章 里 并 没有 介绍 这 个 设备 特殊 文件 以 及 /dev/shortprint， 央 为 它们 的 用 法 只 是 针对 中 断 
处 理 的 。/dev/shortint 的 内 部 实现 是 专门 针对 中 断 的 产生 和 报告 的 。 每 向 设备 写 一 个 字 
节 就 产生 一 次 中 断 ， 而 读 取 设 备 时 则 给 出 每 次 中 断 报告 产生 的 时 间 。 


如 果 读 者 连接 并 口 连接 器 的 引 脚 9 和 10，,， 通过 拉 高 并 口 数据 字 节 的 高 位 就 会 产生 中 断 ， 
这 可 以 通过 向 设备 文件 /dev/short0 写 和 二进制 数据 或 者 向 设备 文件 /dev/shortint 写 入 任 
何 数据 来 实现 ( 注 2)。 





注 2: Shortint 设备 通过 交替 地 向 并 口 写 入 0x00 和 0xff 来 完成 其 任务 。 
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下 面 的 代码 实现 了 对 /dev/shortint 的 读 取 和 写 人 : 


ssize_t short_i_read (struct file *filp, char 


{ 


} 


= User *buf, Sine tt count; 
有 es se 


int countO0; 
DEFINE_WAIT{wait)}); 


while (short_head = = short tail} { 
prepare_to waitl{&short_queue, &wait, TASKk _INTERRUPTIBLE); 
if {short head = = short_tail)} 
schedule(}); 


finish_wait (lg&short. queue, &wait); 
if {signal_pending (current)) /* 某 个 信和 号 已 到 达 */ 
return ~ERESTARTSYS; /* 告诉 fs 层 来 做 进一步 处 理 */ 
} 
/* count0 是 可 读 取 数据 的 字 节 数 */ 
count0 = Short_head - short_tail; 
if {count0 < 0) /* 已 交换 */ 
count0 = short_buffer + PAGE_SIZE - short_tail; 
if (count0 < count) count = count0; 


if (copy. to_user(buf, (char *}short_tail, count})) 
return -EFAULT; 

Short_incr_bp {&short_tail, count); 

return count; 


ssize_t short_ i write (struct file *filp, const char . user *buf, size_t 
count, 


{ 


1 


loff _t * 人 Pog} 


int written = 0, odd = *f pos & 1; 
unsigned long port = short_base; /* 输出 到 并 口 的 数据 锁 存 器 */ 
void *address = (void *) short_base; 


if {use mem) { 
while (written < Count) 
iowrite8(0xff * ((++written + odd) & 1}, address); 
} else { 
while (written < count) 
Outb(Oxff * ((++written + odd) & 1), port); 
} 


*f_pos += count; 
return written; 


其 他 的 设备 特殊 文件 ， 如 /dev/shortprint， 使 用 并 口 来 驱动 一 台 打 印 机 ， 如 果 读 者 想 避 
免 在 D-25 连接 器 的 引 脚 9 和 10 之 间 焊 接 一 根 电线 的 话 , 就 可 以 使 用 打印 机 。shortprint 
的 wrire 实 现 使 用 了 一 个 循环 缓冲 区 来 存储 被 打印 的 数据 , 而 read 的 实现 是 刚才 介绍 的 
那 一 种 (所 以 读者 可 以 读 出 打印 机 获得 每 个 字符 的 时 间 )。 


272 第 十 章 





为 了 支持 打印 机 操作 , 上 面 列 出 的 中 断 处 理 例 程 被 做 了 少许 修改 , 增加 了 发 送 下 一 个 数 
据 字 节 到 打印 机 的 能 力 (如果 有 更 多 的 数据 需要 传送 的 话 )。 


处 理 例 程 的 参数 及 返回 值 


虽然 shorf 没有 对 参数 进行 处 理 ， 但 还 是 有 三 个 参数 被 传 给 了 中 断 处 理 例 程 : irq、 
dev_id 利 regs。 让 我 们 看 看 每 个 参数 的 意义 。 


如 果 存 在 任何 可 以 打印 到 日 志 的 消息 时 ， 中 汤 号 (int irq) 是 很 有 用 的 。 第 二 个 参数 
void *dev_id 是 一 种 客户 数据 类 型 ( 即 驱动 程序 可 用 的 私有 数据 )。 传 递 给 request_irq 
函数 的 void * 参 数 会 在 中 断 发 生 时 作为 参数 被 传 回 处 理 例 程 .通常 ,我 们 会 为 lev_ia 
传递 一 个 指向 自己 设备 的 数据 结构 指针 , 这 样 , 一 个 管理 若干 同样 设备 的 驱动 程序 在 中 
断 处 理 例 程 中 不 需要 做 任何 额外 的 代码 ， 就 可 以 找 则 哪个 设备 产生 了 当前 的 中 断 事件 。 


中 断 处 理 例 程 中 参数 的 典型 用 法 如 下 : 


static irqreturn_t sample_inkterrupt (int irq, void *dev_id, struct Pt_regs 
*regs) 
{ 
struct sample_dev *dev = dev_id; 


/* 现在 ，dev 指向 正确 的 硬件 项 */ 
A pT 
】 


与 这 个 处 理 例 程 相关 联 的 典型 open 代码 如 下 所 示 : 


static void sample_open(struct inode *inode, struct file *filp) 
{ 
struct sample_dev *dev = hwinfo + MINOR(inode->i_rdev); 
request_irq{(dev->irqg, sample_interrupt, 
0 /* flags */, "sample", dev /* dev_id */); 
a 
return 0; 
} 


最 后 一 个 参数 struct pt_reg *regs 很 少 使 用 , 它 保存 了 处 理 器 进入 中 断代 码 之 前 的 
处 理 器 上 下 文 快照 。 该 寄存 器 可 被 用 来 监视 和 调试 , 对 一 般 的 设备 驱动 程序 任务 来 说 通 
常 不 是 必需 的 。 


中 断 处 理 例 程 应 该 返回 一 个 值 , 用 来 指明 是 否 真正 处 理 了 一 个 中 断 。 如 果 处 理 例 程 发 现 
其 设备 的 确 需 要 处 理 ， 则 应 该 返回 IRQ_HANDLED; 否则 ,返回 值 应 该 是 IRQ_NONE。 
我 们 也 可 以 通过 下 面 的 宏 来 产生 这 个 返回 值 : 


IRQ_RETVAL (handled) 
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如 果 要 处 理 该 中 断 , 则 handled 应 该 取 非 零 值 。 该 返回 值 将 被 内 核 使 用 ,以便 检 测 并 抑 
制 假 的 中 断 。 如 果 设 备 无 法 告诉 我 们 是 否 被 真正 中 断 ， 则 应 该 返回 IRQ_HANDLED。 


启用 和 禁用 中 断 


有 了 时 设备 驱动 程序 必须 在 一 个 时 间 段 内 (希望 较 短 ) 阻塞 中 断 的 发 出 (我 们 在 第 五 章 的 
“ 自 旋 锁 ” 一 节 中 看 到 过 这 种 情况 )。 通常 来 说 , 我 们 必须 在 拥有 自 旋 锁 的 时 候 阻 塞 中 斯 ， 
以 免 死 锁 系统 。 在 涉及 自 旋 锁 的 情况 下 ,， 有 多 种 办 法 可 禁用 中 断 。 但 在 我 们 讨论 这 些 办 
法 之 前 , 要 注意 应 该 尽量 少 禁 用 中 断 , 即使 在 设备 驱动 程序 中 也 是 如 此 ,同时 这 种 技术 
不 应 在 驱动 程序 中 作为 互 斥 机 制 使 用 。 


禁用 单个 中 断 


有 时 (但 很 少 }， 和 驱动 程序 需要 禁用 某 个 特定 中 断 线 的 中 断 产生 。 为 此 ， 内 核 提 供 了 三 
个 函数 ， 这 些 函 数 均 在 <asm/irq.h> 中 声明 。 这 些 函 数 是 内 核 API 的 一 部 分 ， 因 此 在 这 
里 描述 它们 , 但 对 大 多 数 驱动 程序 来 讲 , 我 们 并 不 鼓励 使 用 这 些 函 数 。 此 外 ,我 们 不 能 
禁用 共享 的 中 断 线 , 而 在 现代 系统 上 , 中 有 断 的 共享 是 很 常见 的 。 这 三 个 函数 的 原型 如 下 : 

void disable_irdtint irq); 

void disable_irq_nosync (int irqg); 

void enable_irqlint irq); 
调用 这 些 函 数 中 的 任何 一 个 都 会 更 新 可 编程 中 断 控制 器 (Programmable Interrupt 
Controller, PIC ) 中 指定 中 断 的 掩 码 , 因而 就 可 以 在 所 有 的 处 理 器 上 禁用 或 者 启用 IRQ。 
对 这 些 函 数 的 调用 是 可 以 檬 套 的 一 一 如 果 disable_irg 被 成 功 调用 两 次 ， 那么 在 IRQ 真 
正 重 新 启用 之 前 , 则 需要 执行 两 次 enable_irq 调用。 从 一 个 中 断 处 理 例 程 中 调用 这 些 函 
数 是 可 以 的 ,但 是 在 处 理 某 个 IRQ 时 再 打开 它 并 不 是 一 个 好 习惯 。 


disable_irg 不 但 会 禁止 给 定 的 中 断 ， 而且 也 会 等 待 当前 正在 执行 的 中 断 处 理 例 程 完成 。 
要 明白 的 是 , 如 果 调 用 disable_irg 的 线程 拥有 任何 中 断 处 理 例 程 需要 的 资源 ( 比如 自 旋 
锁 ), 则 系统 会 死 锁 。 和 disable_irg 不同 ,disable_irqg_nosync 是 立即 返回 的 。 因 此 使 用 
后 者 将 会 更 快 ， 但 是 可 能 会 让 你 的 驱动 程序 处 于 竞 态 状态 。 


但 为 什么 还 要 禁用 中 断 昵 ? 还 是 举 并 口 的 例子 , 先 看 看 plip 网 络 接 口 。 一 个 plip 设 备 使 
用 裸 的 并 口传 送 数 据 。 因 为 并 口 连接 器 上 只 有 5 个 位 可 以 读 ， 它们 被 解释 为 4 个 数据 位 
和 一 个 时 钟 /握手 信号 。 当 发 起 者 (发送 数据 包 的 那个 接口 ) 送出 一 个 包 的 头 4 个 位 时 ， 
时 钟 线 的 电 平 升 高 ,这 将 导致 接收 方 接口 中 断 处 理 器 。 然 后 , plip 的 处 理 例 程 就 会 被 调 
用 ， 以 便 处 理 最 新 到 达 的 数据 。 
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在 设备 被 通知 之 后 ,数据 的 传输 将 继续 进行 。 这 里 ,plip 使 用 担 手 信号 线 和 接收 方 保持 
同步 (这 可 能 不 是 最 好 的 实现 , 但 是 和 其 他 使 用 并 口 的 数据 包 驱 动 程序 保持 兼容 是 必要 
的 )。 如 果 接 收 接口 每 接收 一 个 字 节 都 要 处 理 两 次 中 断 , 那么 性 能 显然 是 不 可 忍受 的 。 
此 驱动 程序 在 接收 数据 包 的 时 候 禁 用 中 断 ， 而 使 用 “ 轮 询 并 延迟 ”循环 来 接收 数据 。 


同样 地 , 因为 接收 方 到 发 送 方 的 担 手 信号 被 用 来 应 答 数 据 的 接收 , 所 以 发 送 接口 也 要 在 
发 送 数据 包 时 禁用 它 自 己 的 IRQ 信号 。 


禁用 所 有 的 中 断 
如 果 要 禁用 所 有 的 中 断 该 怎么 办 ? 在 2.6 内 核 中 , 可 通过 下 面 两 个 函数 之 一 关闭 当前 处 
理 器 上 的 所 有 中 断 处 理 ， 这 两 个 国 数 定义 在 <asmy/system.j> 中 : 

void local_irq_savelunsigned long flags); 

void local_irg disable{(void); 
对 local_irq_save 的 调用 将 把 当前 中 断 状态 保存 到 f1ags 中 , 然后 禁用 当前 处 理 器 上 的 
中 其 发送。 注意 ,flags 被 直接 传递 , 而 不 是 通过 指针 来 传递 。local_irq_disable 不 保 
存 状态 而 关闭 本 地 处 理 器 上 的 中 断 发 送 ; 只 有 我 们 知道 中 断 并 未 在 其 他 地 方 被 禁用 的 情 
况 下 ， 才 能 使 用 这 个 版 本 。 


可 通过 如 下 函数 打开 中 断 : 

void local_irqg restore(unsigned long flags); 

void local_irqg enable(void); 
第 一 个 版 本 会 将 Iocal_irqg_save 保存 的 Elags 状态 值 局 复 , 而 local_irq_enable 无 条 件 
打开 中 断 。 与 disable_irg 不 同 ，iocal_irg_disable 不 会 维护 对 多 次 的 调用 的 跟踪 。 如 果 
调用 链 中 的 多 个 函数 需要 禁用 中 断 ， 则 应 该 使 用 local_irq_save。 


在 2.6 内核 中 ， 没 有 办 法 全 局 禁用 整个 系统 上 的 所 有 中 断 。 内 核 开 发 者 认为 关闭 所 有 中 
断 的 代价 太 高 , 因此 没有 必要 提供 这 种 能 力 。 如 果 读 者 使 用 的 老 驱 动 程序 调用 了 类 似 c 
和 sti 这 样 的 函数 , 为 了 该 驱动 程序 能 够 在 2.6 下 使 用 , 则 需要 进行 修改 而 使 用 正确 的 锁 。 


项 半 部 和 底 半 部 


中 断 处 理 的 一 个 主要 问题 是 怎样 在 处 理 例 程 内 完成 耗 时 的 任务 .响应 一 次 设备 中 断 需 要 
完成 一 定数 量 的 工作 ， 但 是 中 断 处 理 例 程 需要 尽快 结束 而 不 能 使 中 断 阻 塞 的 时 间 过 长 ， 
这 两 个 需求 (工作 和 速度 ) 彼此 冲突 ， 让 驱动 程序 的 作者 多 少 有 点 困扰 。 
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Linux (连同 很 多 其 他 的 系统 ) 通过 将 中 断 处 理 例 程 分 成 两 部 分 来 解决 这 个 问题 。 称 为 
“ 顶 半 部 ”的 部 分 ， 是 实际 响应 中 断 的 例 程 ， 也 就 是 用 request_irq 注册 的 中 断 例 程 ; 而 
所 谓 的 “ 底 半 部 ”是 一 个 被 顶 半 部 调度 ,并 在 稍 后 更 安全 的 时 间 内 执行 的 例 程 。 顶 半 部 
处 理 例 程 和 底 半 部 处 理 例 程 之 间 最 大 的 不 同 , 就 是 当 底 半 部 处 理 例 程 执行 时 , 所 有 的 中 
断 都 是 打开 的 这 就 是 所 谓 的 在 更 安全 时 间 内 运行 。 典 型 的 情况 是 顶 半 部 保存 设备 
的 数据 到 一 个 设备 特定 的 缓冲 区 并 调度 它 的 底 半 部 ， 然 后 退出 : 这 个 操作 是 非常 快 的。 
然后 ， 底 半 部 执行 其 他 必要 的 工作 ， 例 如 唤醒 进程 、 局 动 另 外 的 IO 操作 等 等 。 这 种 方 
式 允 许 在 底 半 部 工作 期 间 ， 项 半 部 还 可 以 继续 为 新 的 中 断 服务 。 


几乎 每 一 个 严格 的 中 断 处 理 例 程 都 是 以 这 种 方式 分 成 两 部 分 的 。 例如 , 当 一 个 网 络 接口 
报告 有 新 数据 包 到 达 时 ， 处 理 例 程 仅仅 接收 数据 并 将 它 推 到 协议 层 上 ， 而 实际 的 数据 
包 处 理 过 程 是 在 底 半 部 执行 的 。 


Linux 内 核 有 两 种 不 同 的 机 制 可 以 用 来 实现 底 半 部 处 理 , 我 们 已 经 在 第 七 章 介 绍 过 这 两 
种 机 制 了 。tasklet 通常 是 底 半 部 处 理 的 优选 机 制 ; 因为 这 种 机 制 非常 快 ， 但 是 所 有 的 
tasklet 代码 必须 是 原子 的 。 除 了 tasklet 之 外 , 我 们 还 可 以 选择 工作 队列 , 它 可 以 具有 更 
高 的 延迟 ， 但 允许 休眠 。 


下 面 再 次 用 short 驱动 程序 来 进行 我 们 的 讨论 。 在 使 用 某 个 模块 选项 装载 时 ， 可 以 通知 
short 模 块 使 用 顶 / 底 半 部 的 模式 进行 中 断 处 理 , 并 采用 tasklet 或 者 工作 队列 处 理 例 程 。 
因此 , 顶 半 部 执行 得 就 很 快 , 因为 它 仅 保存 当前 时 间 并 调度 底 半 部 处 理 。 然 后 底 半 部 负 
责 这 些 时 间 的 编码 ， 并 唤醒 可 能 等 待 数 据 的 任何 用 户 进程 。 





tasklet 


记 住 tasklet 是 一 个 可 以 在 由 系统 决定 的 安全 时 刻 在 软件 中 断 上 下 文 被 调度 运行 的 特殊 函 
数 。 它 们 可 以 被 多 次 调度 运行 ,但 tasklet 的 调度 并 不 会 累积 ; 也 就 是 说 , 实际 只 会 运行 
一 次 ， 即 使 在 激活 tasklet 的 运行 之 前 重复 请 求 该 tasklet 的 运行 也 是 这 样 。 不 会 有 同一 
tasklet 的 多 个 实例 并 行 地 运行 , 因为 它们 只 运行 一 次 , 但 是 tasklet 可 以 与 其 他 的 tasklet 
并 行 地 运行 在 对 称 多 处 理 器 (SMP) 系统 上 。 这 样 ， 如 果 驱 动 程序 有 多 个 taskiet、 它 们 
必须 使 用 某 种 锁 机 制 来 避免 彼此 间 的 冲突 。 


tasklet 可 确保 和 第 一 次 调度 它们 的 函数 运行 在 同样 的 CPU 上 。 这 样 ， 因 为 tasklet 在 中 
断 处 理 例 程 结束 前 并 不 会 开始 运行 , 所 以 此 时 的 中 断 处 理 例 程 是 安全 的 。 不 管 怎样 , 在 
tasklet 运 行 时 ,当然 可 以 有 其 他 的 中 断 发 生 , 因此 在 tasklet 和 中 断 处 理 例 程 之 间 的 锁 还 


必须 使 用 宏 DECLARE_TASKLET 声明 tasklet: 
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DECLARE_TASKLET{name, function, data); 


name 是 给 tasklet 起 的 名 字 ,function 是 执行 tasklet 时 调用 的 限 数 ( 它 带 有 一 个 unsigned 
long 型 的 参数 并 且 返 回 void),data 是 一 个 用 来 传递 给 taskie! 函 数 的 unsigned long 
类 型 的 值 。 


虚 动 程序 short 如 下 声明 它 自己 的 tasklet: 


void short_do tasklet (unsigned long); 
DECLARE_TASKLET{short_tasklet, short_do_tasklet, 0); 


函数 taskiet_schedule 用 来 调度 一 个 tasklet 运 行 。 如 果 指 定 tasklet=1 选 项 装载 short， 
它 就 会 安装 一 个 不 同 的 中 断 处 理 例 程 ， 这 个 处 理 例 程 保存 数据 并 如 下 调度 tasklet: 


irqreturn_t short_t} interrupt (int irg, void *dev_id, struct pt_regs 
*regs) 
{ 

do_gettimeofday((struct timeval *) tv_head); /* 强制 转换 以 免 出 现 “ 易 失 性 ” 
警告 */ 

short_incr tv(&tv_head); 

tasklet_schedule(&short_tasklet); 

short_wq_count++; /* 记录 中 断 的 产生 */ 

return IRQ_HANDLED; 
} 


实际 的 tasklet 例 程 ， 即 short_do_tasklet， 将 会 在 系统 方便 时 得 到 执行 。 就 像 先前 提 到 
的 ， 这 个 例 程 执行 中 断 处 理 的 大 多 数 任务 ， 如 下 所 示 : 


void short_do_tasklet (unsigned long unused) 
{ 
int savecount = short wq_count, written; 
short_wq_count = 0; /* 已 经 从 队列 中 移 除 */ 
/i* 
* 底 半 部 读 取 由 顶 半 部 填充 的 tv 数组 ， 
* 并 向 循环 文本 缓冲 区 中 打印 信息 ， 而 缓冲 区 的 数据 则 由 
* 读 取 进 程 获得 
ed 


/* 首先 将 调用 此 bh 之 前 发 生 的 中 断 数量 写 人 */ 
written = sprintfl( (char *)short_ head,"bh after %6i\n",savecount): 
short_incr_bp (&short. head, written); 


/1* 

* 然后 写 人 时 间 值 。 每 次 写 人 16 字 节 ， 
* 所 以 它 与 PAGE_SIZE 是 对 齐 的 

& 


do { 
written = Sprintft({(char *})short_head,"%08u.%06u\n", 
{int) (tv_tail->tv_sec % 100000000), 
(int} (tv_tail->tv_usec)); 
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Short_incr_bp (&short_head，written) ; 
short_incr_tv(&tv_tail); 
} while {tv_tail != tv_head); 
wake_up_interruptible(&short_queue); /* 唤醒 任何 读 取 进程 */ 
} 
在 其 他 动作 之 外 , 这 个 tasklet 记 录 了 自从 它 上 次 被 调用 以 来 产生 了 多 少 次 中 断 。 一 个 类 
似 于 short 的 设备 可 以 在 很 短 的 时 间 内 产生 很 多 次 中 断 ， 所 以 在 底 半 部 被 执行 前 ， 肯 定 
会 有 多 次 中 断 发 生 。 暴动 程序 必须 一 直 对 这 种 情况 有 所 准备 , 并 且 必 须 能 根据 顶 半 部 保 
留 的 信息 知道 有 多 少 工作 需要 完成 。 


工作 队列 


读者 应 该 记得 , 工作 队列 会 在 将 来 的 某 个 时 间 、 在 某 个 特殊 的 工作 者 进程 上 下 文中 调用 
一 个 函数 。 因 为 工作 队列 函数 运行 在 进程 上 下 文中 , 因此 可 在 必要 时 休眠 。 但 是 我 们 不 
能 从 工作 队列 向 用 户 空间 复制 数据 ,除非 使 用 将 在 第 十 五 章 中 描述 的 高 级 技术 ,要 知道 ， 
工作 者 进程 无 法 访问 其 他 任何 进程 的 地 址 空间 。 


如 果 在 装载 short 驱 动 程序 时 将 wa 选项 设置 为 非 零 值 , 则 该 驱动 程序 将 使 用 工作 队列 作 
为 其 底 半 部 进程 。 它 使 用 系统 的 默认 工作 队列 , 因此 不 需要 其 他 特殊 的 设置 代码 ; 但 是 ， 
如 果 我 们 的 驱动 程序 具有 特殊 的 延迟 需求 (或 者 可 能 在 工作 队列 函数 中 长 时 间 休眠 ), 则 
应 该 创建 我 们 自己 的 专用 工作 队列 。 我 们 需要 一 个 work_struct 结 构 , 该 结构 如 下 声 
明 并 初始 化 : 


static struct work_struct short_wq; 


/* 下 面 这 行 出 现在 short_init() 中 */ 
INIT WORK{&short._wq, (void (*) (void *)) short_do_tasklet, NULL); 


我 们 的 工作 者 函数 是 short_do_tasklet， 该 函数 已 经 在 先前 的 小 节 中 介绍 过 了 。 
在 使 用 工作 队列 时 ，short 构造 了 另 一 个 中 断 处 理 例 程 ， 如 下 所 示 : 


irqreturn_t short_wq_interrupt (int irg, void *dev_id, struct pt_regs 
*regs) 
{ 
/* 获取 当前 的 时 间 信 息 。*/ 
do_gettimeofday({struct timeval *) tv_head); 
Short_incr_tvit&tv_head) 


/* 排序 bh。 不 必 关心 多 次 调度 的 情况 */ 


schedule work(&short_wq); 


short_wq_count++; /* 记录 中 断 的 到 达 */ 
return IRQ_HANDLED; 
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读者 可 以 看 到 ， 该 中 断 处 理 例 程 和 tasklet 版 本 非常 相似 ， 唯 一 的 不 同 是 它 调用 
schedule_work 来 安排 底 半 部 处 理 。 


中 断 共 享 
“IRQ 溃 突 ”这 种 说 法 和 “PC 架构 ”几乎 是 同 义 语 。 通 常 ，PC 上 的 IRQ 信号 线 不 能 为 
一 个 以 上 的 设备 服务 ,它们 从 来 都 是 不 够 用 的 , 结果, 许多 没有 经 验 的 用 户 总 是 花费 很 


多 时 间 试 图 找到 一 种 方法 使 所 有 的 硬件 能 够 协同 工作 ,因此 他 们 不 得 不 总 是 打开 自己 计 
算 机 的 外 壳 。 


当然 , 现代 硬件 已 经 能 允许 中 断 的 共享 了 , 比如 PCI 总 线 就 要 求 外 设 可 共享 中 断 。 因 此 ， 
Linux 内 核 支持 所 有 总 线 的 中 断 共 享 , 即使 在 类 似 ISA 这 样 原先 并 不 支持 共享 的 总 线 上 。 
针对 2.6 内 核 的 设备 驱动 程序 ,应 该 在 目标 硬件 可 以 支持 共享 中 断 操作 的 情况 下 处 理 中 
断 的 共享 。 幸 运 的 是 ， 大 多 数 情况 下 很 容易 使 用 共享 的 中 断 。 


安装 共享 的 处 理 例 程 
就 像 普通 非 共 享 的 中 断 - - 样 ,共享 的 中 断 也 是 通过 reguest_irg 安 装 的 ,但 是 有 两 处 不 同 : 


。 “请求 中 断 时 ， 必 须 指定 flags 参数 中 的 Sa_SHIRQ 位 。 


。 ”dev_id 参 数 必须 是 唯一 的 ,任何 指向 模块 地 址 空间 的 指针 都 可 以 使 用 ,但 Qev_iad 
不 能 设置 成 NULL。 


内 核 为 每 个 中 断 维护 了 一 个 共享 处 理 例 程 的 列表 ， 这 些 处 理 例 程 的 Gev_id 各 不 相同 ， 
就 像 是 设备 的 签名 。 如 果 两 个 驱动 程序 在 同一 个 中 断 上 都 注册 NULL 作为 它们 的 签名 ， 
那么 在 印 载 的 时 候 引 起 混 清 ,当中 断 到 达 时 造成 内 核 出 现 oops 消 息 。 由 于 这 个 原因 , 在 
注册 共享 中 断 时 如 果 传 递 了 值 为 NULL 的 dev_id, 现代 的 内 核 就 会 给 出 警告 。 当 请 求 一 
个 共享 中 断 时 ， 如 果 满 足下 面条 件 之 一 ， 那 么 request_irgq 就 会 成 功 : 


。 “中断 信号 线 空闲 。 
。 ”任何 已 经 注册 了 该 中 断 信号 线 的 处 理 例 程 也 标识 了 IRQ 是 共享 的 。 


无 论 何 时 , 当 两 个 或 者 更 多 的 驱动 程序 共享 同一 根 中 断 信 号 线 , 而 硬件 又 通过 这 根 信号 
线 中 断 处 理 器 时 ， 内 核 会 调用 每 一 个 为 这 个 中 断 注 册 的 处 理 例 程 ， 并 将 它们 自己 的 
dev_id 传 回去 。 因 此 , 一 个 共享 的 处 理 例 程 必须 能 够 识别 属于 自己 的 中 断 ， 并 且 在 自 
己 的 设备 没有 被 中 断 的 时 候 迅 速 退出 。 


如 果 读 者 在 请 求 中 断 请 求 信号 线 之 前 需要 探测 设备 的 话 , 则 内 核 不 会 有 所 帮助 , 对 于 共 
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享 的 处 理 例 程 是 没有 探测 函数 可 以 利用 的 。 仅 当 要 使 用 的 中 断 信号 线 处 于 空 闪 时 , 标准 
的 探测 机 制 才能 工作 , 但 如 果 信号 线 已 经 被 其 他 具有 共享 特性 的 驱动 程序 占用 的 话 , 即 
使 你 的 驱动 已 经 可 以 很 好 的 工作 了 , 探测 也 会 失败 。 幸 运 的 是 , 多 数 可 共享 中 断 的 硬件 
能 够 告诉 处 理 器 它们 在 使 用 哪个 中 断 ， 这 样 就 消除 了 显 式 探测 的 必要 。 


释放 处 理 例 程 同样 是 通过 执行 free_irq 来 实现 的 。 这 里 Gev_id 参 数 被 用 来 从 该 中 断 的 
共享 处 理 例 程 列 表 中 选择 正确 的 处 理 例 程 来 释放 , 这 就 是 为 什么 dev_ia 指 针 必须 唯一 
的 原因 。 


使 用 共享 处 理 例 程 的 驱动 程序 需要 小 心 一 件 事 情 : 不 能 使 用 enable_irqg 和 disable_irq。 
如 果 使 用 了 , 共享 中 断 信号 线 的 其 他 设备 就 无 法 正常 工作 了 ; 即使 在 很 短 的 时 间 内 禁用 
中 断 ， 也 会 因为 这 种 延迟 而 为 设备 和 其 用 户 带 来 问题 。 通 常 ,程序 员 必须 记 住 他 的 驱动 
程序 并 不 独占 IRQ， 所 以 它 的 行为 必须 比 独占 中 断 信号 线 时 更 “社会 化 ”。 


运行 处 理 例 程 
如 上 所 述 ， 当 内 核 收 到 中 断 时 ， 所 有 已 注册 的 处 理 例 程 都 将 被 调用 。 一 个 共享 中 断 处 理 
例 程 必须 能 够 将 要 处 理 的 中 上 断 和 其 他 设备 产生 的 中 断 区 分 开 来 。 


装载 short 时 ， 如果 指定 shared=1 选项 , 则 将 安装 下 面 的 处 理 例 程 而 不 是 默认 的 处 理 
例 程 : 


irqreturn_t short_sh_interrupt (int irqg, void *dev_id, struct pt_regs *regs) 
lt 

int value, written; 

struct timeval tv; 


/* 如 果 不 是 short 产生 的 ， 则 立即 返回 */ 
value = inb{short_base); 
if (!(value & 0x80)) 

return IROQO_NONE; 


/* 清除 中 断 位 */ 
outb(value & Ox7F, short.base}; 


/* 其 余部 分 没有 什么 变化 */ 


do_gettimeofday (&tv}); 
written = sprintf((char *)short_head,"%08u.%06u\n", 

(int) (tv.tv_sec % 100000000) ， (int) (tv.tv_usec)); 
short_incr_bp(&short_head，written) ; 
wake_up_interruptible(&short_queue); /* 唤醒 任何 的 读 取 进 程 */ 
return IRQ_HANDLED; 
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解释 如 下 。 因 为 并 口 没有 “interrupt-pending” 位 可 以 检查 ， 为 此 处 理 例 程 使 用 了 ACK 
位 。 如 果 该 位 为 高 ， 那 么 报告 的 中 断 就 是 送 给 short 的 ， 然 后 处 理 例 程 清 除 该 位 。 


处 理 例 程 通过 将 并 口 的 数据 端口 的 高 位 清 零 来 重新 设置 该 位 一 一 sport 假定 并 口 的 引 脚 
9 和 10 是 连接 在 一 起 的 。 如 果 一 个 与 short 共 享 IRQ 的 其 他 设备 产生 了 中 断 ，shorr 就 知 
道 它 自己 的 信号 线 没有 被 激活 ， 所 以 不 会 做 任何 工作 。 


一 个 功能 完整 的 驱动 程序 可 能 会 将 任务 分 成 项 半 部 和 底 半 部 , 当然 这 很 容易 添加 , 并 且 
对 用 于 实现 共享 的 代码 没有 任何 影响 . 一 个 真正 的 驱动 程序 或 许 会 使 用 Gev_id 参 数 来 
判断 产生 中 断 的 某 个 或 多 个 设备 。 


注意 ， 如 果 读者 使 用 一 台 打印 机 (代替 跳 线 ) 来 检验 short 的 中 断 管理 ， 那 么 这 个 共享 
的 中 断 处 理 例 程 不 会 按 预期 工作 , 因为 打印 机 协议 不 允许 共享 , 而且 驱动 程序 也 无 从 知 
道中 断 是 否 是 由 打印 机 产生 的 。 


/proc 接口 和 共享 的 中 断 
在 系统 上 安装 共享 的 中 断 处 理 例 程 不 会 对 /proc/stat! 造 成 影响 , 它 甚至 不 知道 哪些 处 理 例 
程 是 共享 的 ， 但 是 ，/procy/interruptfs 会 有 稍 许 改变 。 


所 有 为 同一 个 中 断 号 安装 的 处 理 例 程 会 出 现在 /proc/interrupts 文 件 的 同一 行 上 。 下 面 的 
输出 (来 自 一 个 x86_64 系统 ) 说 明了 共享 的 中 断 处 理 例 程 是 怎样 显示 的 : 


CPUO 
0: 892335412 XT-PIC timer 
1 453971 XT-PIC i8042 
到 0 XT-PIC cascade 
5 0 XT-PIC libata, ehci_hcd 
8 0 XT-PIC rtc 
9: 0 XT-PIC acpi 
10: 11365067 XT-PIC ide2, uhci_hcd, uhci_ hed, SysKonnect SK-98xx, FMUIOK1 
11: 4391962 XT-PIC uhci_hcd, uhci_hcd 
12: 224 XT-PIC i8042 
14: 2787721 XT-PIC ide0 
15s 203048 XT-PIC idel 
NMI: 41234 
LOC: 892193503 
ERR: 102 
MIS: 0 


该 系统 具有 多 个 共享 的 中 断 线 。IRQ 5 用 于 串 行 ATA 和 IEEE 1394 控制 器 ; IRQ 10 也 
由 多 个 设备 共享 , 包括 一 个 IDE 控 制 器 、 两 个 USB 控 制 器 、 一 个 以 太 网 接口 以 及 一 个 声 
卡 ; IRQ 11 也 由 两 个 USB 控制 器 使 用 。 


中 断 处理 281 


中 断 驱 动 的 1/0 


如 果 与 驱动 程序 管理 的 硬件 之 间 的 数据 传输 因为 茶 种 原因 被 延迟 的 话 , 驱 动 程序 作者 就 
应 该 实现 缓冲 。 数据 缓冲 区 有 助 于 将 数据 的 传送 和 接收 与 系统 调用 write 和 read 分 离开 
来 ， 从 而 提高 系统 的 整体 性 能 。 


一 个 好 的 缓冲 机 制 需 要 采用 中 断 驱 动 的 IO， 这 种 模式 下 ， 一 个 输入 缓冲 区 在 中 断 时 间 
内 被 填充 ,并 由 读 取 该 设备 的 进程 取 走 缓冲 区 内 的 数据 ; 一 个 输出 缓冲 区 由 写 人 设备 的 
进程 填充 ,并 在 中 断 时 间 内 取 走 数据 。 一 个 中 断 驱 动 输出 的 例子 是 /dev/shortint 的 实现 。 


要 正确 进行 中 断 驱 动 的 数据 传输 ， 则 要 求 硬件 应 该 能 按照 下 面 的 语义 来 产生 中 断 : 
。 “对 于 输入 来 说 , 当 新 的 数据 已 经 到 达 并 且 处 理 器 准备 好 接收 它 时 ,设备 就 中 断 处 理 
器 。 实 际 执行 的 动作 取决 于 设备 使 用 的 是 IO 端口 、 内 存 映射 ， 还 是 DMA。 


。 ”对 于 输出 来 说 , 当 设备 准备 好 接收 新 数据 或 者 对 成 功 的 数据 传送 进行 应 答 时 ,就 要 
发 出 中 断 。 内 存 映 射 和 具有 DMA 能力 的 设备 , 通常 通过 产生 中 断 来 通知 系统 它们 
对 缓冲 区 的 处 理 已 经 结束 。 


read 或 者 write 与 实际 数据 到 达 之 间 的 时 序 关 系 己 经 在 第 六 章 “阻塞 和 非 阻塞 式 操作 一 





写 缓冲 区 示例 


我 们 已 多 次 提 到 shortprint 驱动 程序 ， 现 在 可 以 看 看 实际 的 代码 了 。 这 个 模块 实现 了 一 
个 针对 并 口 的 、 面 向 输出 的 非常 简单 的 驱动 程序 ; 但 是 ， 该 驱动 程序 足够 用 来 打印 文件 
了 。 当然 , 在 测试 这 个 驱动 程序 的 打印 功能 时 , 记 住 要 以 打印 机 可 理解 的 文件 格式 发 送 ， 
要 知道 ， 并 不 是 所 有 的 打印 机 都 能 对 任意 数据 的 流 给 出 相应 的 响应 。 


shortprint 驱 动 程序 维护 了 一 页 大 小 的 输出 用 循环 缓冲 区 。 当 用 户 空间 进程 向 该 设备 写 入 
数据 时 ， 数 据 会 反馈 到 缓冲 区 中 ， 但 write 方法 并 不 实际 执行 任何 的 I/O 操作 。 
shortp_write 的 核心 代码 如 下 所 示 : 


while (written < count) { 
/* 挂 起 直到 有 可 用 缓冲 区 空间 为 止 。*/ 
space = shortp_out_space(); 
if {space <= 0) { 
if (wait event_interruptiblel(shortp_out._queue, 
(space = Shortp_out_space()) > 0)) 
goto out; 
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/* 将 数据 移动 到 缓冲 区 。*/ 

it ({space + written) > Count) 
space = count - written; 

if (copy_from user{{char *) shortp_out_head, buf, space)) { 
up(l&shortp_out_sem);. 
return -EFAULT; 

} 

shortp_incr _out bp{(&shortp. out head, space); 

buf += space; 

written += Space; 


/* 如 果 没 有 激活 的 输出 , 则 激活 。 */ 
spin_lock_irqsave{&kshortp_out_lock, flags); 
if {! shortp_ output_active) 

shortp_start_output (); 
spin_unlock_irqrestore{&shortp_out_lock, flags); 


out: 
*f_pos += written; 


信号 量 (shortp_out_sem) 控制 着 对 该 循环 缓冲 区 的 访问 ; 在 上 述 代 码 之 前 ， 
Ee write 会 获得 该 信号 。 在 拥有 该 信号 量 的 同时 ， 它 会 尝试 将 数据 反馈 到 循环 缓冲 

。 尔 数 shortp_out_space 返 回 连续 可 用 的 空间 大 小 (因此 没有 必要 关心 缓冲 区 的 反 转 
站 如 果 该 大 小 为 0 ,驱动 程序 就 等 待 直到 空间 被 释放 。 然 后 ， 它 会 将 数据 复制 到 该 
缓冲 区 。 


一 旦 有 数据 要 输出 ，shortp_write 必须 确保 数据 被 写 人 设备 。 实 际 的 写 人 由 工作 队列 函 
数 完成 ; shortp_write 必须 在 该 工作 队列 函数 尚未 执行 时 调度 该 函数 。 在 获取 一 个 独立 
的 自 旋 锁 (该 自 旋 锁 控 制 对 用 于 输出 缓冲 区 消费 者 端的 变量 的 访问 ， 其 中 包括 
shortp_output_active) 之 后 ， 必 要 时 它 调用 shortp_start_output。 之 后 ， 只 需 关 注 
有 多 少数 据 “ 已 写 人 ”该 缓冲 区 并 返回 。 


启动 输出 进程 的 函数 如 下 所 示 : 


static void shortp_start_output (void) 
Sk 
if (shortp_output_active) /* 不 应 发 生 */ 
return; 


/* 设置 “丢失 中 断 ” 定 时 器 */ 
shortp_output_active = 1; 
Shortp_timer ,expires = jiffies + TIMEOUT; 
add_timer (gshortp_timer); 


/* ”然后 让 进程 继续 。*/ 


queue_work {shortp. workqueue, &shortp_work); 
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处 理 硬件 的 实际 代码 有 了 时 会 丢失 来 自 设 备 的 中 断 。 如 果 发 生 这 种 情况 , 我 们 不 希望 驱动 
程序 永久 停止 直到 系统 重启 ; 也 就 是 说 , 我 们 必须 以 用 户 友 好 的 方式 解决 这 个 问题 。 如 
果 能 够 意识 到 中 断 的 丢失 并 继续 处 理 则 会 好 得 多 。 为 此 ,shortprint 设 置 了 一 个 内 核定 时 
器 来 向 设备 输出 数据 。 如 果 该 定时 器 到 期 , 则 可 能 丢失 了 某 个 中 断 。 我 们 很 快 就 能 看 到 
定时 器 函数 , 但 是 现在 仍然 关注 主要 的 输出 功能 。 这 个 功能 在 工作 队列 函数 中 实现 , 我 
们 已 经 看 到 该 函数 被 调度 ， 而 其 核心 代码 如 下 所 示 : 


spin_lock_irqsavel(l&shortp_out_lock, flags); 


/* 是 否 有 数据 写 信 ? */ 

if {shortp_out_head = = shortp_out_tail) { /* 空 的 */ 
shortp_output_active = 0; 
wake_up_interruptible(l&gshortp_empty._queue); 
del_timer (&shortp. timer); 


} 
/* 否则 写 入 其 他 字 节 */ 
else 

shortp_do writet{}; 


/* 如 果 有 人 等 待 , 则 唤醒 之 。 */ 
if (((PRGE_SIZE + shortp out tail - shortp_out_head) % PAGE_SIZE) > SP_ MIN_SPACE) 
{ 
wake_up_interruptible{(&shortp_out_queue); 
} 
spin_unlock. irgqrestore{&shortp_out_lock, flags); 


因为 我 们 正在 处 理 输出 端的 共享 变量 ,因此 必须 获得 自 旋 锁 。 然 后 ,代码 会 检查 是 否 存 
在 数据 需要 发 送 ; 如 果 没 有 , 我 们 记录 该 输出 不 再 活动 ,删除 定时 器 ， 并 唤醒 任何 可 能 
等 待 该 队列 彻底 为 空 (在 设备 被 关闭 时 将 发 生 此 类 等 待 ) 的 进程 。 相 反 ， 如 果 仍 有 数据 
要 写 和 信 ， 则 调用 shortp_do_write 来 真正 将 一 个 字 节 发 送 给 硬件 。 


然后 , 因为 我 们 可 能 已 经 在 输出 缓冲 区 中 有 了 空闲 空间 , 因此 需要 考虑 唤醒 那些 等 待 添 
加 数据 到 该 缓冲 区 的 进程 。 但 是 我 们 并 不 是 无 条 件 地 执行 这 个 唤醒 , 相反, 我 们 只 会 在 
空闲 空间 达到 某 个 最 小 值 时 才 会 执行 唤醒 。 每 次 缓冲 区 中 的 一 个 字 节 被 发 送 给 硬件 之 后 
就 唤醒 写 人 进程 ， 并 不 是 好 的 选择 ; 因为 唤醒 一 个 进程 ,调度 该 进程 运行 ,然后 将 其 重 
新 置 于 休眠 的 成 本 太 高 了 。 相 反 , 我 们 应 该 等 待 , 直到 进程 可 以 将 具有 实质 性 大 小 的 数 
据 放 到 缓冲 区 。 这 种 技术 在 缓冲 的 、 中 断 驱 动 的 驱动 程序 中 非常 常见 。 


为 了 完整 ， 下 面 给 出 将 数据 真正 写 人 端口 的 代码 : 


static void shortp_do_write(void) 


{ 
unsigned char cr = inb(shortp_base + SP_CONTROL); 


/* 有 情况 发 生 ， 重 置 定时 器 */ 


mod_timer (&shortp_timer, jiffies + TIMEOUT); 
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} 


/* 向 设备 输出 一 个 字 节 */ 
outb pl*shortp_out_tail, shortp_base+SP_ DATA); 
shortp_incr_out_bp(&shortp_out_ tail, 1); 
if (shortp_delay) 
udelay (shortp_delay); 
outb plcr | SP_CR_STROBE，shortp_base+SP_CONTROL) ; 
if (shortp delay) 
udelay {shortp_delay); 
outb pl(cr & ~SP_CR_STROBE, shortp base+SsP_ CONTROL); 


这 里 , 我 们 重 置 定时 器 以 反映 我 们 已 经 完成 了 某 些 处 理 , 然后 发 送 一 个 字 节 到 设备 , 最 
后 更 新 循环 缓冲 区 的 指针 。 


工作 队列 函数 不 会 直接 提交 自己 , 因此 将 只 会 有 一 个 字 节 被 写 和 设备, 打印 机 将 以 自己 
的 慢 速 方式 处 理 这 个 字 节 , 之 后 等 待 处 理 下 一 个 字 节 ; 然后 会 中 断 处 理 器 。shortprint 使 
用 的 中 断 处 理 例 程 很 短 ， 也 很 简单 : 


static irqreturn_t shortp_ interrupt(int irg, void *dev_id, struct pt_regs *regs} 


{ 


} 


if (! shortp output_active) 

return IRQ_NONE; 
/* 记录 时 间 ， 其 他 信息 在 工作 队列 函数 中 获得 */ 
Go_gettimeofday (&shortp. tv); 
queue_work (shortp workqueue, &shortp_work); 
return IRQ_ HANDLED; 


因为 并 口 并 不 需要 显 式 的 中 断 应 答 ,因此 中 断 处 理 例 程 唯一 要 做 的 就 是 告诉 内 核 再 次 运 
行 工作 队列 。 


如 果 中 断 始终 不 产生 会 怎么 样 呢 ? 我 们 已 经 看 到 的 驱动 程序 代码 会 导致 停顿 。 为 了 避免 
这 种 情况 的 发 生 ,我 们 在 前 几 页 设置 了 一 个 定时 器 .该 定时 器 到 期 时 会 执行 下 面 的 函数 : 


static void shortp.timeout (unsigned long unused) 


{ 


unsigned long flags; 
unsigned char status; 


if (! shortp_output.active) 

return; 
spin_lock irgqsave(l&kshortp_out_ lock, flags):; 
status = inb(lshortp_base + SP_STATUS),; 


/* 如 果 打 印 机 仍然 忙 ， 则 只 是 重 置 定时 器 */ 

if ((status & SP SR_BUSY) = = 0 || (status & SP_SR_ACK)) { 
shortp_timer.expires = jiffies + TIMEOUT; 
adqd timer{&shortp._timer); 
spin_unlock_irqrestore(&shortp_out._lock, flags); 
return; 
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/* 否则 必须 调用 中 断 处 理 例 程 */ 
spin_unlock_irqgqrestore(&shortp_out_lock, flags); 
shortp_interrupt (shortp_irg, NULL, NULL}，; 

1 


如 果 没 有 激活 的 输出 , 则 定时 器 函数 会 直接 返回 ; 这 可 避免 在 发 生 问 题 时 定时 器 再 次 提 
交 自 身 。 然 后 , 在 获取 自 旋 锁 之 后 , 我 们 查询 端口 的 状态 ， 如 果 端 口 正 已， 则 说 明 端口 
尚未 发 送 中 断 给 我 们 , 因此 我 们 重 轩 定时 器 并 返回 。 打印 机 有 时 可 能 会 花费 很 长 时 间 才 
能 准备 就 绪 , 比如 管理 员 正在 休假 时 打印 机 缺 纸 的 情况 。 在 这 种 情况 下 , 除了 耐心 等 待 
情况 发 生变 化 之 外 别 无 他 法 。 


但 是 , 如 果 打印 机 声明 已 就 绪 ， 则 说 明 我 们 丢失 了 它 的 中 断 。 在 这 种 情况 下 ,我 们 只 要 
简单 地 手工 调用 我 们 的 中 断 处 理 例 程 就 可 让 输出 过 程 重新 继续 。 


shortprint 驱动 程序 不 支持 端口 的 读 取 ; 相反 , 它 像 shortint 一 样 返回 中 断定 间 信 息 。 但 
是 ， 中断 驱 动 的 read 方 法 的 实现 和 我 们 已 经 看 到 的 write 方法 的 实现 非常 类 似 。 来 自 设 
备 的 数据 应 该 首先 被 读 取 到 驱动 程序 的 缓冲 区 ,然后 当 缓冲 区 中 已 经 积累 了 足够 多 数量 
的 数据 时 , 或 者 完整 的 读 取 请 求 可 被 满足 时 , 或 者 某 种 类 型 的 超时 发 生 时 ,再 将 这 些 数 
据 复 制 到 用 户 空间 。 


快速 参考 
本 章 介 绍 了 与 中 断 管理 相关 的 符号 : 


#include <linux/interrupt.h> 

int request_irq(unsigned int irq, irqretum_t {*handler)(), unsigned long 
flags, const char *Gev_ name, void *dev_iqd); 

void free_irq(unsigned int irqg, void *dev_id); 


上 面 这 些 调用 用 来 注册 和 注销 中 断 处 理 例 程 。 


#include <linux/irg.h.h> A 

int can,request_irg(unsigned int irqg, unsigned long flags); 
上 述 函 数 只 在 i386 和 x86_64 体 系 架构 上 可 用 。 当 试图 分 配 某 个 给 定 中 断 线 的 请 求 
成 功 时 ， 则 返回 非 零 值 。 


#include <asm/signal.h> 
SA_INTERRUPT 
SA_SHIRQ 
SA_SAMPLE_RANDOM 
request_irq 函数 的 标志 。SA_INTERRUPT 要 求 安装 一 个 快速 的 处 理 例 程 (相对 于 慢 
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速 的 )。SaA_SHIRQ 安 装 一 个 共享 的 处 理 例 程 ， 而 第 三 个 标志 表明 中 断 时 间 惟 可 用 
来 产生 系统 录 。 


/proc/interrupts 
/proc/stat 


这 些 文件 系统 节点 用 于 汇报 关于 硬件 中 断 和 已 安装 处 理 例 程 的 信息 。 

unsigned long probe_irq onl(void); 

int probe_irq off(unsigned long); 
当 驱 动 程序 不 得 不 探测 设备 , 以 确定 该 设备 使 用 哪 根 中 断 信号 线 时 , 可 以 使 用 上 述 
函数 。 在 中 断 产生 之 后 ，probe_irq_o 的 返回 值 必须 传 加 给 Probe_irq_o 疗 ， 而 
probe_irqg_off 的 返回 值 就 是 检测 到 的 中 断 号 。 

IRQ_NONE 

IRQ_HANDLED 

IRQ_RETVAL (int x) 
中 断 处 理 例 程 的 可 能 返回 值 ， 它 们 表示 是 否 是 一 个 真正 来 自 设备 的 中 断 。 


void disable., irgqlint irq); 

void disable_irq nosync(int irq}); 

void enable_irql(lint irq); 
驱动 程序 可 以 启用 和 禁用 中 断 报告 。 如 果 硬 件 试图 在 中 断 被 禁用 的 时 候 产 生 中 断 ， 
中 断 将 永久 丢失 。 使 用 共享 处 理 例 程 的 驱动 程序 不 能 使 用 这 些 函 数 。 


void local_irq_save (unsignedq long flags); 

void local_irqg restore(unsigned long flags); 
使 用 local_irq_save 可 禁用 本 地 处 理 器 上 的 中 断 , 并 记录 先前 的 状态 。flags 可 传 
递 给 local_irqg_restore 以 恢复 先前 的 中 断 状态 。 

void local_ira dGisable(void); 


void local_irqg_ enable (void); 


用 于 无 条 件 禁用 和 启用 当前 处 理 器 中 断 的 函数 。 
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在 继续 讨论 更 高 级 的 主题 之 前 ,我 们 需要 先 讨 论 一 下 可 移植 性 问题 。 现 代 版 本 的 Linux 
内 核 的 可 移植 性 是 非常 好 的 ,可 以 运行 在 许多 不 同 的 体系 架构 上 。 由 于 Linux 的 多 平台 
特性 ， 任 何 一 个 重要 的 驱动 程序 都 应 该 都 是 可 移植 的 。 


但 是 与 内 核 代码 相关 的 核心 问题 是 这 些 代 码 应 该 能 够 同时 访问 已 知 长 度 (例如 , 文件 系 
统 的 数据 结构 或 者 设备 板 上 的 寄存 器 ) 的 数据 项 ， 并 充分 利用 不 同 处 理 器 (32 位 和 64 
位 体系 架构 ， 或 者 也 可 能 是 16 位 的 ) 的 能 力 。 


在 把 x86 上 的 代码 移植 到 新 的 体系 架构 上 时 , 内 核 开发 人 员 遇 到 的 若干 问题 都 和 不 正确 


的 数据 类 型 有 关 。 坚 持 使 用 严格 的 数据 类 型 ， 并 且 使 用 -Wall -Wstrict-prototypes 选项 
编译 可 以 防止 大 多 数 的 代码 缺陷 。 


内 核 使 用 的 数据 类 型 主要 被 分 成 三 大 类 : 类 似 int 这样 的 标准 C 语 言 类 型 , 类似 u32 这 
样 的 有 确定 大 小 的 类 型 ,以 及 像 pid_t 这 样 的 用 于 特定 内 核对 象 的 类 型 我们 将 讨论 应 
该 在 什么 情况 下 使 用 这 三 种 典型 类 型 ,以 及 如 何 使 用 。 当 从 x86 平 台 向 其 他 平台 移植 驱 
动 程序 代码 时 ,读者 可 能 遇 到 其 他 一 些 典 型 的 问题 ,这 些 问 题 将 在 本 章 的 最 后 一 节 讨 论 。 
本 章 还 将 介绍 新 内 核 头 文件 提供 的 对 链表 的 通用 支持 。 


如 果 读 者 遵循 我 们 提供 的 指导 方针 ,读者 的 驱动 程序 甚至 可 能 在 那些 未 经 测试 的 平台 上 
编译 和 运行 。 


使 用 标准 C 语言 类 型 
尽管 大 多 数 程序 员 习惯 于 自由 使 用 像 int 和 1ong 这 样 的 标准 类 型 , 但 编写 设备 驱动 各 
序 时 需要 小 心 ， 以 避免 类 型 冲突 和 潜在 的 代码 缺陷 。 


问题 是 ， 当 我 们 需要 “两 个 字 节 的 填充 符 ” 或 者 “用 四 个 字 节 字符 串 表 示 的 某 个 东西 
287 
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时 ,我 们 不 能 使 用 标准 类 型 ,因为 在 不 同 的 体系 架构 上 ,普通 C 语 言 的 数据 类 型 所 占 空 
间 的 大 小 并 不 相同 。 在 O'Reilly ftp 站 点 上 的 misc-progs 目录 下 提供 的 样 例文 件 包 含 了 
datasize 程 序 , 它 可 以 显示 各 种 C 语 言 数据 类 型 的 大 小 。 以 下 是 PC 上 该 程序 的 运行 样 例 
(其 中 最 后 四 个 类 型 将 在 下 一 节 介 绍 ): 

morganag misc-progs/datasize 

arch Size: Cchar short int long ptr long-long u8 ul6 u32 u64 

i686 1 2 4 4 4 8 1 2 4 8 
这 个 程序 也 可 以 在 64 位 平台 上 运行 ,其 结果 表明 在 64 位 系统 上 1ong 整 型 和 指针 类 型 
的 大 小 和 32 位 系统 不 同 。 下 面 的 结果 说 明了 该 程序 在 不 同 平台 上 的 运行 结果 : 


arch Size: char Short int long ptr long-long u8 ul6 u32 u64 


i386 1 2 44 4 4 8 1 2 和 8 
alpha 1 2 4 8 8 8 入 区 4 8 
armv4dl 到 2 4 4 4 8 下 > 入 8 
ia64 于 2 和 4 8 8 8 1 2 4 8 
m68k 1 2 4 4 4 8 1 2 4 8 
mips 于 2 4 4 4 8 J 2 4 8 
ppc 1 2 4 4 4 8 2. 2 4 8 
sparc 1 1 4 4 4 8 于 2 4 8 
sparc64 主 2 4 4 4 8 3 妆 如 8 
x86_64 1 2 4 8 8 8 i 2 4 8 


值得 注意 的 是 ，SPARC 64 架构 运行 的 是 32 位 的 用 户 空间 ， 因 此 在 用 户 空间 指针 是 32 
位 宽 的 ， 不 过 它们 在 内 核 空间 是 64 位 的 。 这 可 以 通过 装载 kdatasize 模块 (可 从 misc- 
modules 目录 下 的 样 例文 件 中 得 到 ) 来 验证 。 该 模块 在 装载 时 使 用 prin 尿 来 报告 大 小 信 
息 并 返回 一 个 错误 〈 所 以 不 需要 卸载 这 个 模块 ): 


kernel: arch Size: char short int long ptr long-long u8 ul6 u32 u64 
kernel: Sparc64 1 2 4 8 8 8 J 2 4 8 


尽管 在 混合 使 用 不 同 数据 类 型 时 我 们 必须 小 心 谨慎 , 但 有 时 有 理由 这 样 做 。 这样 的 一 种 
情况 是 内 存 地 址 ,只 要 一 涉及 到 内 核 , 内 存 地 址 就 变 得 很 特殊 。 虽 然 从 概念 上 讲 地 址 是 
指针 , 但 是 通过 使 用 无 符号 整数 类 型 可 以 更 好 地 实现 内 存 管理 ; 内 核 把 物理 内 存 看 作 是 
一 个 巨型 数组 , 一 个 内 存 地 址 就 是 该 数组 的 一 个 索引 。 此 外 ， 我们 可 以 很 方便 地 对 指针 
取 值 ; 但 在 直接 处 理 内 存 地 址 时 , 我们 几乎 从 来 不 会 以 这 种 方式 对 它们 取 值 。 使 用 一 个 
整数 类 型 可 以 防止 这 种 取 值 ， 因 而 可 避免 代码 缺陷 。 所以, 内 核 中 的 普通 内 存 地 址 通常 
是 unsigned long， 这 利用 了 如 下 事实 : 至 少 在 当前 Linux 支持 的 所 有 平台 上 ， 指 针 
和 long 整 型 的 大 小 总 是 相同 的 。 | 


C99 标 准 定义 了 intptr_t 和 uintptr_t 类 型 ,它们 是 能 够 保存 指针 值 的 整 型 变量 。 这 
些 类 型 在 2.6 的 内 核 中 几乎 没有 用 到 。 
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为 数据 项 分 配 确定 的 空间 大 小 


有 时 内 核 代码 需要 特定 大 小 的 数据 项 ,多 半 是 用 来 匹配 预定 义 的 二 进 制 结构 ( 注 1), 或 
者 和 用 户 空间 进行 通信 , 或 者 通过 在 结构 体 中 插入 “ 填 白 (padding )” 字 段 (关于 对 齐 
的 问题 、 请 查阅 “数据 对 齐 ” 一 节 ) 来 对 齐 数据 。 


当 我 们 需要 知道 自己 的 数据 大 小 时 , 内 核 提 供 了 下 列 数据 类 型 。 所 有 这 些 类 型 都 在 头 文 
件 <asm/itypes.h> 中 声明 ， 这 个 文件 又 被 天 文件 <linux/types.h> 包含 : 

u8; ”/* 无 符号 字 节 (8 位 ) */ 

ul6;  /* 无 符号 字 (16 位 ) */ 

u32; /* 无 符号 32 位 值 */ 

u64; /* 无 符号 64 位 值 */ 
相应 的 有 符号 类 型 也 存在 ,但 是 几乎 没 用 。 如 果 需 要 它们 的 话 ， 只 需 将 名 字 中 的 u 用 s 
替换 就 可 以 了 。 


如 果 一 个 用 户 空间 程序 需要 使 用 这 些 类 型 ， 它 可 以 在 名 字 前 加 上 两 个 下 划 线 作为 前 组 : 
__u8 和 其 他 类 型 是 独立 于 __KERNEL、_ 定 义 的 。 例 如 ， 如 果 一 个 驱动 程序 需要 通过 
ioct! 系 统 调 用 与 一 个 运行 在 用 户 空间 的 程序 交换 二 进 制 结构 的 话 , 则 应 该 在 头 文件 中 用 
~_u32 来 声明 结构 中 的 32 位 的 成 员 。 


重要 的 是 要 记 住 这 些 类 型 是 Linux 特有 的 ， 使 用 它们 将 阻碍 软件 向 其 他 Unix 变种 的 移 
植 。 使 用 新 编译 器 的 系统 将 支持 C99 标准 类 型 ， 例 如 uint8_ 上 和 uint32_t; 如 果 考 虑 
到 可 移植 性 ， 可 以 使 用 这 些 类 型 而 不 是 Linux 特有 的 变种 。 


我 们 可 能 也 会 注意 到 有 时 内 核 使 用 传统 的 类 型 , 例如 unsigned int, 这 通常 用 于 其 大 
小 与 体系 架构 无 关 的 数据 项 。 这 种 做 法 通常 是 为 了 保持 向 后 兼容 性 。 当 在 版 本 1.1.67 中 
引入 ua32 及 其 相关 类 型 时 , 开发 者 没有 办 法 将 现存 的 数据 结构 改变 为 新 的 类 型 , 因为 当 
结构 体 字段 和 所 赋予 的 值 之 间 类 型 不 匹配 时 ,编译 器 将 发 出 警告 ( 注 2)。Linus 没有 想 
到 他 自己 编写 的 操作 系统 会 用 在 多 平台 上 ， 因 此 ， 旧 的 结构 体 有 时 定义 得 不 是 很 严格 。 


接口 特定 的 类 型 


内 核 中 最 常用 的 数据 类 型 由 它们 自己 的 typedef 声明 , 这 样 可 以 防止 出 现任 何 移植 性 
问题 。 例 如, 一 个 进程 的 标识 符 (pid) 通常 使 用 pid_t 类 型 , 而 不 是 int。 使 用 pid_t 





注 1; 当 读 取 分 区 表 ， 执 行 二 进 制 文件 ， 或 者 解 开 网 络 数据 纪 时 会 发 生 这 种 情况 。 


注 2: 事实 上 ， 即 使 两 个 相同 的 对 象 具有 不 同 的 类 型 名 称 时 ， 编 译 器 信号 类 型 也 会 矛盾 ， 比 如 
PC 上 的 unsigned long 和 u32。 
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屏蔽 了 在 实际 的 数据 类 型 中 任何 可 能 的 差异 。“ 接 口 特定 (interface-specific)” 是 指 由 
某 个 库 定义 的 一 种 数据 类 型 ， 以 便 为 某 个 特定 的 数据 结构 提供 接口 。 


注意 ， 近 来 已 经 很 少 定义 新 的 接口 特定 的 类 型 。 许 多 内 核 开发 人 员 已 经 不 再 喜欢 使 用 
typedef 语句 ， 他 们 更 愿意 看 到 直接 用 在 代码 中 的 真实 的 类 型 信息 ， 而 不 是 隐藏 在 用 
户 定义 的 类 型 之 后 。 不 过 , 许多 较 老 的 接口 特定 类 型 还 是 保留 在 内 核 中 , 它们 不 会 很 快 
就 消失 。 


即使 没有 定义 接口 特定 的 类 型 , 也 应 该 始终 使 用 和 内 核 其 余部 分 一 致 的 , 适当 的 数据 类 
型 。 例 如 ，jiffies 计数 总 是 属于 unsigned long 类 型 ， 而 不 管 它 的 实际 大 小 如 何 ， 
此 ， 在 使 用 jiffies 的 时 候 应 该 始终 使 用 unsigned long 类 型 。 本 节 中 我 们 将 主要 讨论 
”+ 上 ”类 型 的 用 法 。 


完整 的 _t 类 型 在 <linux/types.h> 中 定义 ,但 很 少 使 用 这 个 清单 。 当 需要 某 个 特定 类 型 
时 ， 可 在 所 需 调 用 的 函数 原型 或 者 所 使 用 的 数据 结构 中 找到 这 个 类 型 。 


只 要 驱动 程序 使 用 了 需要 这 种 “定制 ”类 型 的 函数 ， 但 又 不 遵守 约定 的 时 候 ， 编 译 器 
就 会 产生 警告 ， 如 果 使 用 -Wall 编译 选项 并 且 细心 地 消除 所 有 的 警告 ,就 可 以 确信 代码 
是 可 移植 的 了 。 


_t 数据 项 的 主要 问题 是 在 我 们 需要 打印 它们 的 时 候 ， 不 太 容易 选择 正确 的 printk 或 者 
printf 的 输出 格式 ， 并 且 在 一 种 体系 架构 上 排除 的 警告 ,在 另 一 种 体系 架构 上 可 能 还 会 
出 现 。 例 如 ， 当 size_t 在 一 些 平台 上 是 unsigned 1long, 而 在 另 一 些 平台 上 是 
unsigned int 类 型 时 ， 我 们 应 该 如 何 打印 它 呢 ? 


当 我 们 需要 打印 一 些 接口 特定 的 数据 类 型 时 , 最 行 之 有 效 的 方法 ， 就 是 将 其 强制 转换 成 
可 能 的 最 大 类 型 (通常 是 1ong 或 者 unsigned 1ong)， 然 后 用 相应 的 格式 打印 。 这 
种 做 法 不 会 产生 错误 或 者 警告 , 因为 格式 和 类 型 相 匹 配 , 而 且 也 不 会 丢失 数据 位 , 因为 
强制 类 型 转换 要 么 是 一 个 空 操作 ， 要 么 是 将 该 数据 项 向 更 宽 的 数据 类 型 扩展 。 


实际 上 , 通常 并 不 需要 打印 我 们 讨论 的 这 些 数 据 项 , 因此 ,只 有 在 调试 信息 中 才 会 出 现 
这 些 问题 ,。 除了 将 接口 特定 的 数据 类 型 作为 参数 传递 给 库 函 数 或 者 内 核 函 数 之 外 , 大 多 
数 时 候 代码 只 需 对 它们 进行 储存 和 比较 操作 。 


尽管 _t 类 型 在 大 多 数 情况 下 是 正确 的 解决 方案 ， 但 有 时 正确 的 类 型 并 不 存在 。 这 发 生 
在 一 些 还 没有 被 整理 的 旧 接口 上 。 


在 内 核 头 文件 中 我 们 已 经 发 现 一 处 疑点 ，LO 函数 的 数据 类 型 不 是 很 严格 〈 请 参阅 第 九 
章 的 “平台 相关 性 ”一 节 )。 这 种 不 严格 的 类 型 定义 主要 是 由 于 历史 原因 造成 的 ， 但 是 


内 村 数 所 天 有 


却 可 能 在 编写 代码 时 引起 问题 。 例如 , 在 把 参数 交换 给 像 oxtb 这 样 的 函数 时 经 常 遇 到 麻 
烦 ; 如 果 有 一 种 port_t 类 型 ， 编 译 器 就 会 发 现 这 一 类 错误 。 


其 他 有 关 移 植 性 的 问题 


在 编写 一 个 能 在 不 同 的 Linux 平 台 间 移植 的 驱动 程序 时 ,除了 数据 类 型 定义 的 问题 之 外 ， 
还 必须 注意 其 他 一 些 软 件 上 的 问题 。 


一 个 通用 的 原则 是 要 避免 使 用 显 式 的 常量 值 。 通常 ,代码 通过 使 用 预 处 理 的 宏 使 之 参数 
化 。 这 一 节 列 出 了 最 重要 的 移植 性 问题 。 在 遇 到 其 他 已 经 被 参数 化 的 值 时 ， 可 以 在 头 文 
件 和 随 正式 内 核 版 本 一 起 发 布 的 设备 驱动 程序 中 找到 一 些 线索 。 


时 间 间 隔 

在 处 理 时间 间 隔 时 ,不 要 假定 每 秒 一 定 有 100 个 jiffies。 尽 管 对 于 当前 的 1386 架构 这 是 
正确 的 , 但 并 不 是 每 一 种 Linux 平台 都 以 这 个 速度 运行 。 即 使 在 x86 上 这 种 假设 也 可 能 
是 错误 的 , 因为 HZ 值 可 能 已 被 改变 (有 这 种 情况 ), 更 何况 没有 人 知道 未 来 的 内 核 将 发 
生 什 么 变化 。 使 用 jiffies 计算 时 间 间 隔 的 时 候 , 应 该 用 HZ (每 种 定时 器 中 断 的 次 数 ) 来 
衡量 。 例 如 ， 为 了 检测 半 秒 的 超时 ， 可 以 将 消逝 的 时 间 与 Hz/12 作 比 较 。 更 常见 的 , 与 
msec 毫秒 对 应 的 jiffies 数目 总 是 msec*HZ/1000。 


页 大 小 


使 用 内 存 时 ， 要 记 住 内 存 页 的 大 小 为 PAGE_SIZE 字 节 , 而 不 是 4 KB。 假 定 页 大 小 就 是 
4 KB 而且 硬 编码 这 个 数值 ,是 PC 程序 员 常 犯 的 错误 。 相反 , 在 已 支持 的 平台 上 ， 页 大 
小 范围 是 从 4 KB 到 64 KB ， 有 时 候 它 们 在 相同 平台 的 不 同 实现 上 也 是 不 一 致 的 。 这 一 
问题 涉及 到 的 宏 是 PAGE_SIZE 和 PAGE_SHIFT。 后 者 是 为 得 到 一 个 地 址 所 在 页 的 页 号 ， 
需要 对 该 地 址 右 移 的 位 数 。 对 于 4 KB 和 更 大 的 页 ， 这 个 数值 通常 是 12 或 者 更 大 。 这些 
宏 在 头 文件 <asm/page.h> 中 定义 ; 如 果 用 户 空间 程序 需要 这 些 信息 ， 则 可 以 使 用 
getpagesize 库 函 数 来 获得 。 


让 我 们 看 看 一 种 重要 的 情形 。 如 果 一 个 驱动 程序 需要 16 KB 空间 来 储存 临时 数据 , 我 们 
不 应 该 指定 传递 给 get_free_pages 的 参数 为 2 的 社 ， 而 需要 一 个 可 移植 的 方案 。 幸 运 的 
是 ， 内 核 开发 人 员 已 经 编写 了 一 个 名 为 get_order 的 解决 方案 : 


#include <asm/page.h> 
int order = get_order (16*1024); 
buf = get_free_pages (GFP_KERNEL, order); 


记 住 传递 给 get_order 的 参数 必须 是 2 的 笑 。 
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字 节 序 


小 心 不 要 做 字 节 序 的 假设 。 尽 管 PC 是 按照 先是 低 字 节 (little-endian， 小 头 ) 的 方式 存 
储 多 字 节 数值 的 ， 但 某 些 高 端 平台 是 以 另 一 种 方式 (big-endian， 大 头 ) 工作 的 。 只 要 
可 能 , 就 应 该 将 代码 编写 成 不 依赖 于 所 操作 数据 的 字 节 序 的 方式 。 可 是 ， 有 时 驱动 程序 
需要 从 单字 节 建 立 整 型 数 或 者 相反 ， 或 者 它 必 须 和 要 求 特定 字 节 序 的 设备 通信 。 


头 文件 <asm/byteorder.h> 定义 了 __BIG_ENDIAN 或 者 __LITTLE_ENDIAN， 取决 于 处 
理 器 的 字 节 序 。 在 处 理 字 节 序 问题 时 ,我 们 可 能 要 编写 一 组 #ifdef _-LITTLE_ENDIAN 
条 件 语 句 ， 但 是 有 一 个 更 好 的 方法 。Linux 内 核定 义 了 一 组 宏 ， 它 可 以 在 处 理 器 字 节 序 
和 特殊 字 节 序 之 间 进 行 转换 。 例 如 ; 


u32 cpu_to_le32 (u32); 
u32 le32_to_cpu (u32); 


这 两 个 宏 将 一 个 CPU 使 用 的 值 转换 成 一 个 无 符号 的 32 位 小 头 数值 ,或 者 相反 。 不 管 CPU 
是 大 头 还 是 小 头 它们 都 可 以 正常 工作 ,也 不 管 CPU 是 否 是 一 个 32 位 处 理 器 。 如 果 没 有 
转换 工作 需要 做 , 它们 就 返回 未 经 修改 的 参数 。 使 用 这 些 宏 可 以 使 编写 可 移植 代码 的 工 
作 变 得 更 加 容易 ， 而 无 需 使 用 很 多 条 件 编译 。 


类 似 的 例 程 有 十 几 个 之 多 ， 我 们 可 以 在 头 文件 <linux/byteorder/big_endian.h> 和 <linux/ 
byteorderllittle_endian.h> 中 看 到 完整 的 列表 。 稍 后 就 会 看 到 ， 这 种 模式 很 容易 遵循 。 
be64_to_cpu 将 一 个 无 符号 的 64 位 大 头 的 数值 转换 成 CPU 的 内 部 表示 形式 。 相应 地 ， 
le16_to_cpus 处 理 一 个 有 符号 的 16 位 小 头 的 数值 。 当 涉及 到 指针 时 ， 也 可 以 使 用 类 似 
cpu_io_le32p 这 样 的 函数 ,它们 以 指向 数值 的 指针 而 不 是 数值 本 身 为 参数 。 其 他 函数 可 
参阅 头 文件 。 


数据 对 齐 


编写 可 移植 代码 的 最 后 一 个 值得 关注 的 问题 是 如 何 访问 未 对 齐 的 数据 , 例如 , 怎样 读 取 
一 个 存储 在 非 四 字 节 倍数 的 地 址 中 的 四 字 节 值 。i386 的 用 户 常常 访问 未 对 齐 的 数据 项 ， 
但 不 是 所 有 的 体系 架构 都 允许 这 样 做 的 .大 部 分 现代 体系 架构 在 每 次 程序 试图 传输 未 对 
齐 的 数据 时 都 会 产生 一 个 异常 , 这 时 , 数据 传输 会 被 异常 处 理 程序 处 理 , 因此 会 带 来 大 
量 性 能 损失 。 如 果 需 要 访问 未 对 齐 的 数据 ， 则 应 该 使 用 下 面 的 宏 : 

#include <asm/unaligned.h> 

get_unaligned (ptr); 

put_unaligned{val, ptr); 
这 些 宏 是 与 类 型 无 关 的 ， 对 各 种 数据 项 ， 不 管 它 是 1 字 节 、2 字 节 、 4 字 节 还 是 8 字 节 ， 
这 些 宏 都 有 效 。 所 有 版 本 的 内 核 都 定义 了 这 些 宏 。 
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另 一 个 关于 对 齐 的 问题 是 数据 结构 的 跨 平 台 可 移植 性 。 同样 的 数据 结构 (在 C 语 言 源 文 
件 中 定义 的 ) 在 不 同 的 平台 上 可 能 会 被 编译 成 不 同 的 布局 。 编 译 器 根据 平台 的 习惯 来 对 
齐 数 据 结构 的 字段 ， 而 不 回 平 台 的 习惯 是 不 同 的 。 


为 了 编写 可 以 在 不 同 平台 之 间 可 移植 的 数据 项 的 数据 结构 ,除了 规定 特定 的 字 节 序 以 外 ， 
还 应 该 始终 强制 数据 项 的 自然 对 齐 。 自 然 对 齐 (natural alignment) 是 指 在 数据 项 大 小 
的 整数 倍 (例如 ，8 字 秆 数据 项 存 人 8 的 整数 倍 的 地 址 ) 的 地 址 处 存储 数据 项 。 强 制 自 
然 对 齐 可 以 防止 编译 器 移动 数据 结构 的 字段 , 你 应 该 使 用 填充 符 (filler) 字段 来 避免 在 
数据 结构 中 留 下 空洞 。 


为 说 明 编 译 器 是 怎样 强制 对 齐 的 , 示例 源 代码 的 misc-progs 目录 中 有 个 dataalign 程 序 ， 
对 应 的 内 核 模块 是 misc-modules 目 录 中 的 kdataalign。 下面 是 dataalign 程 序 在 若干 平台 
上 的 输出 ， 以 及 kdataalign 模块 在 SPARC64 上 的 输出 : 


arch Align: char short int long ptr long-long u8 ul16 u32 u64 


i386 1 2 4 4 4 4 1 全 4 4 
i686 1 2 4 4 4 在 二 2 a 4 
alpha 1 2 4 8 8 8 1 2 4 8 
armval L 2 4 4 a 4 L 2 4 4 
ia6d 和 2 4 8 8 8 1 2 4 8 
mips 1 2 4 4 4 8 > 2 a 8 
PPC 1 2 4 a 4 8 二 2 "A: 
sparc EE 2 4 4 4 8 和 2 4 8 
SParc64 灶 2 4 4 4 8 1 2 4 8 
X86_64 1 2 a 8 8 8 1 2 4 8 


kernel: arch Align: char short int long ptr long-long u8 ul6 u32 u64 
kernel: sparc64 1 2 4 8 8 8 二 8 


值得 注意 的 是 ,不 是 所 有 平台 都 在 64 位 边界 对 齐 64 位 数值 ， 所 以 需要 填充 符 字段 来 强 
制 对 齐 并 确保 可 移植 性 。 


最 后 , 要 注意 编译 器 本 身 也 许 会 悄悄 地 往 结 构 体 中 插 人 填充 数据 , 来 确保 每 个 字段 的 对 
齐 可 以 在 目标 处 理 器 上 取得 好 的 性 能 .如 果 正 在 定义 一 个 和 设备 所 要 求 的 结构 体 相 匹配 
的 结构 体 , 这 种 自动 填充 会 破坏 你 的 意图 。 解 决 办 法 是 告诉 编译 器 该 结构 体 必 须 是“ 填 
满 的 ”, 不 能 添加 填充 符 。 例 如 , 内核 头 文件 <linux/edd.h> 定 义 了 几 个 用 于 和 x86 BIOS 
交互 的 数据 结构 ， 包 括 如 下 定义 : 
atruct 拭 

ul16 id; 

u64 lun; 

ul6 reservedl; 


u32 reserved2; 
} _ attribute_ _ ({packed}) scsi; 
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如 果 没 有 __attribute__ ( (packed) ), lun 字 段 前 面 会 被 插 和 人 两 个 填充 字 节 , 如 果 
在 64 位 平台 上 编译 该 结构 体 的话 就 是 6 个 字 节 。 


指针 和 错误 值 


许多 内 部 的 内 核 函 数 返回 一 个 指针 值 给 调用 者 , 而 这 些 函 数 中 很 多 可 能 会 失败 。 在 大 部 
分 情况 下 ， 失 败 是 通过 返回 一 个 NULL 指针 值 来 表示 的 。 这 种 技巧 有 作用 ,但 是 它 不 能 
传递 问题 的 确切 性 质 。 某 些 接口 确实 需要 返回 一 个 实际 的 错误 编码 , 以 使 调用 者 可 以 根 
据 实 际 出 错 的 情况 做 出 正确 的 决策 。 


许多 内 核 接口 通过 把 错误 值 编码 到 一 个 指针 值 中 来 返回 错误 信息 。 这 种 函数 必须 小 心 使 
用 , 因为 它们 的 返回 值 不 能 简单 地 和 NULL 比 较 。 为 了 帮助 创建 和 使 用 这 种 类 型 的 接口 ， 
<linuxierr.h> 中 提供 了 一 小 组 函数 。 
返回 指针 类 型 的 函数 可 以 通过 如 下 函数 返回 一 个 错误 值 : 

void *ERR_ PTR(long error); 
这 里 error 是 通常 的 负 的 错误 编码 。 调用 者 可 以 使 用 1S_ERR 来 检查 所 返回 的 指针 是 否 
是 一 个 错误 编码 : 

long IS_ERR(const void *ptr); 
如 果 需 要 实际 的 错误 编码 ， 可 以 通过 如 下 函数 把 它 提 取出 来 : 

long PTR_ERR{Cconst void *ptr); 


应 该 只 有 在 1S_ERR 对 某 值 返回 真 值 时 才 对 该 值 使 用 PTR_ERR, 因为 任何 其 他 值 都 是 有 
效 的 指针 。 


链表 


就 像 很 多 其 他 程序 一 样 ， 操 作 系统 内 核 经 常 需要 维护 数据 结构 的 列表 。 有 时 ，Linux 内 
核 中 同时 存在 多 个 链表 的 实现 代码 。 为 了 减少 重复 代码 的 数量 , 内 核 开发 者 已 经 建立 了 
一 套 标 准 的 循环 、 双 向 链表 的 实现 。 如 果 你 需要 操作 链表 ,那么 建议 你 使 用 这 一 内 核 设 
施 。 


当 使 用 这 些 链表 接口 时 , 应 该 始终 牢记 这 些 链 表 函 数 不 进 行 任何 锁定 。 如 果 你 的 驱动 程 
序 有 可 能 试图 对 同一 个 链表 执行 并 发 操作 的 话 , 则 有 责任 实现 一 个 锁 方案 。 否 则 ， 贿 溃 
的 链表 结构 体 、 数 据 丢 失 、 内 核 混 乱 等 问题 是 很 难 诊断 的 。 
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为 了 使 用 这 个 链表 机 制 , 驱动 程序 必须 包含 头 文件 <linuxllist.h>。 该 文件 定义 了 一 个 简 
单 的 1ist_head 类 型 的 结构 体 。 
struct list_ head { 


struct list_head *next, *prev; 
和 


用 于 实际 代码 的 链表 几乎 总 是 由 某 种 结构 类 型 构成 ,每 个 结构 描述 链表 中 的 一 项 。 为 了 
在 代码 中 使 用 Linux 链 表 设 施 , 只 需要 在 构成 链表 的 结构 里 面 嵌入 一 个 1ist_head。 如 
果 驱 动 程序 维护 一 个 链表 ， 则 可 声明 如 下 : 
struct todo_struct { 
struct list head list; 
int priority; /* 暴动 程序 特定 的 */ 
/* ..， 增 加 其 他 驱动 程序 特定 的 字段 */ 
}3 


链表 头 通常 是 一 个 独立 的 1ist_head 结 构 . 图 11-1 显 示 了 简单 的 struct list_head 
是 如 何 用 来 维护 一 个 数据 结构 链表 的 。 








有 两 个 项 的 链表 头 





list_entry 宏 的 效果 


11-1: list_head 数据 结构 


在 使 用 之 前 , 必须 用 INIT_LIST_HEAD 宏 来 初始 化 链表 头 。 可 如 下 声明 并 初始 化 一 个 实 
际 的 链表 头 : 
struct list_head todo_list; 


INIT_LIST_HEAD(&todo_list); 


296 第 十 一 章 





另外 ， 可 在 编译 时 像 下 面 这 样 初始 化 链表 : 


LIST_HEADI{todo. list); 
头 文件 <linuxllist.h> 中 声明 了 下 列 操作 链表 的 函数 : 


list add(struct list head *new, struct list_head *head); 
在 链表 头 后 面 添加 新 项 -一 通常 是 在 链表 的 头 部 。 这 样 ， 它 可 以 被 用 来 建立 栈 。 
但 需要 注意 的 是 , head 并 不 一 定 非得 是 链表 名 义 上 的 头 ; 如 果 传递 了 一 个 恰巧 位 
于 链表 中 间 某 处 的 1ist_head 结 构 体 , 新 项 会 紧 跟 在 它 的 后 面 。 因为 Linux 链表 
是 循环 式 的 ， 链 表 头 通常 与 其 他 的 项 没有 本 质 上 的 区 别 。 

list_add_ tail(struct list_head *new, struct list_head *head); 
在 给 定 链表 头 的 前 面 添 加 一 个 新 的 项 ， 即 在 链表 的 末尾 处 添加 。 因 此 ， 可 使 用 
list_add_tail 来 建立 先进 先 出 (FIFO) 队列 。 


list_del{struct list_head *entry); 

list_del_init(struct list_head *entry); 
删除 链表 中 的 给 定 项 , 如 果 该 项 还 可 能 被 重新 插入 到 另 一 个 链表 中 的 话 , 应 该 使 用 
list_del_init， 它 会 重新 初始 化 链表 的 指针 。 

list move(struct list_head *entry, struct list_head *head); 


list_move_taill(struct list_head *entry, struct list_head *head); 


把 给 定 项 移动 到 链表 的 开始 处 。 如 果 要 把 给 定 项 放 到 新 链表 的 末尾 ， 使 用 


list_move_tail。 


list_empty(struct list_head *head); 
如 果 给 定 的 链表 为 空 ， 返 回 一 个 非 零 值 。 


list_splice{struct list_head *list, struct list_head *heaG) ; 


通过 在 heaG 之 后 插入 1ist 来 合并 两 个 链表 。 


List_head 结 构 体 有 利于 实现 具有 类 似 结构 的 链表 , 但 调用 程序 通常 对 组 成 链表 的 大 
结构 更 感 兴趣 。 因 此 , 可 利用 list_entry 宏 将 一 个 1ist_head 结 构 指针 映射 回 指向 包含 
它 的 大 结构 的 指针 。 可 如 下 调用 该 宏 : 


list_entry(struct 1ist_head *ptr, type of_struct, field name); 


其 中 ，ptr 是 指向 正 被 使 用 的 struct 1ist_head 的 指针 ， type_of_struct 是 包含 
ptz 的 结构 类 型 ，field_name 是 结构 中 链表 字段 的 名 字 。 在 之 前 的 kodo_struct 结 
构 中 ， 链 表 字 段 只 是 简单 地 被 称 为 1ist。 这 样 ， 利 用 类 似 下 面 的 代码 行 ， 我 们 可 以 将 
一 个 链表 项 转换 成 包含 它 的 结构 : 
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struct todo_struct *todo ptr = 
list _ entry(listptr, struct todo_struct, list); 


需要 稍微 习惯 一 下 宏 jisr_enrry， 但 还 不 是 很 难 使 用 。 


遍历 链表 很 容易 : 只 需 跟随 prev 和 next 指 针 , 作 为 例子 ,假设 我 们 想 让 todo_struct 
链表 中 的 项 按照 优先 级 降序 排列 ， 则 增加 新 项 的 函数 如 下 所 示 : 


void todo_add entryl(struct todo_struct *new) 
{ 

struct list_head *ptr; 

struct todo_struct *entry; 


for {ptr = todo. list.next; ptr != &todo_list; ptr = ptr->next) { 
entry = list_ entryl(ptr, struct todo_struct, list); 
if (entry->priority < new->priority) { 
list_adqd tail (gnew->list, ptr); 
return; 
)} 
} 
list_adqd tail (gnew->list, &todo_struct) 
} 


然而 ,作为 一 个 惯例 , 最 好 使 用 一 组 预定 义 的 宏 来 创建 可 以 遍历 链表 的 循环 。 例 如 ,前 
一 个 循环 可 以 如 下 编码 : 


void todo add entry(struct todo_struct *new) 
{ 


struct list_head *ptr; 
struct todo_struct *entry; 


list_for_each{ptr, &todo_list) { 
entry = list_entry(ptr, struct todo_struct, list); 
if (entry->priority < new->priority) { 
list_adqd tail (gnew->list, ptr); 
return; 
} 
list_adqd_ tail{&new->list, &todo_struct) 
} 


使 用 所 提供 的 宏 有 助 于 避免 简单 的 编程 错误 ,而 且 这 些 宏 的 开发 人 员 还 对 它们 的 性 能 进 
行 了 一 定 的 优化 。 下 面 是 一 些 变 体 : 


list_for eachl(struct list_ head *cursor, struct list_head *]ist) 
该 宏 创 建 一 个 for 循 环 , 每 当 游标 指向 链表 中 的 下 一 项 时 执行 一 次 .在 遍历 链表 时 
要 注意 对 它 的 修改 。 

list_for each prevl(struct list_head *cursor, struct list_head *1ist) 


该 版 本 向 后 遍历 链表 。 
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list_for each safe(struct list_head *cursor, struct list head *next, struct 
list_head *]list) 
如 果 循 环 可 能 会 刷 除 链表 中 的 项 ,就 应 该 使 用 该 版 本 。 它 只 是 简单 地 在 循环 的 开始 
处 把 链表 中 的 下 一 项 存储 在 next 中 , 这 样 如 果 cursozr 所 指 的 项 被 删除 也 不 会 造 
成 混乱 。 
1ist_for_each_entry(type *cursor, struct list_head *1ist，mermbezr) 
list_ for each entry safe(type *cursor, type *next, struct list_head *]list, 
member) 
这 些 宏 使 处 理 一 个 包含 给 定 类 型 结构 体 的 链表 时 更 加 容易 。 这里, cursor 是 指向 
包含 结构 体 类 型 的 指针 ，member 是 包含 结构 体内 1ist_head 结构 体 的 名 字 。 使 
用 这 些 宏 就 不 需要 在 循环 内 调用 list_entry 了 。 


如 果 你 查看 <linux/list.h>， 就 会 发 现 一 些 额 外 的 声明 。h1ist 类 型 是 一 个 使 用 分 离 的 、 
单 指针 链表 头 类 型 的 双向 链表 ; 它 经 常用 于 创建 散 列 表 和 类 似 的 数据 结构 。 还 有 用 于 遍 
历 这 两 种 类 型 链表 的 宏 ， 它 们 一 般 用 于 “ 读 - 复制 ~ 更 新 ”机 制 (在 第 五 章 的 “ 读 取 - 
复制 -更 新 ”一 节 中 介绍 )。 这 些 基 本 例 程 不 太 可 能 用 于 设备 驱动 程序 ， 但 如 果 读 者 想 
深入 探究 的 话 可 以 查阅 该 头 文件 。 


快速 参考 
本 章 介绍 了 如 下 符号 : 


#include <linux/types.h> typedef u8; 

typedef ul16; 

typedef u32; 

typedef u64; 
确保 是 8、16、32 和 64 位 的 无 符号 整数 值 类 型 。 对 应 的 有 符号 类 型 同样 存在 。 在 
用 户 空间 ， 读 者 可 以 使 用 _ _u8 和 __u16 等 类 型 。 


#include <asm/page.h> 

PAGE_SIZE 

PAGE_SHIFT 
定义 了 当前 体系 架构 的 每 页 字 节 数 和 页 偏 移 位 数 (4 KB 页 为 12、8 KB 页 为 13) 
的 符号 。 

#include <asm/byteorder.h> 

__LITTLE_ENDIAN 

__BIG_ENDIRAN 
这 两 个 符号 只 有 一 个 被 定义 ， 取 决 于 体系 架构 。 
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#include <asm/byteorder.h> 

32 LCDUS tole32 (ua) 

U32" 1632 toeCpu (V32)5 
在 已 知 字 节 序 和 处 理 器 字 节 序 之 间 进 行 转换 的 函数 。 有 超过 60 个 这 样 的 函数 ; 关 
于 它们 的 完整 列表 和 如 何 定义 ， 请 查阅 includellinux/byteorder/ 下 的 各 种 文件 。 

#include <asm/unaligned.h> 

get_unaligned (ptr); 

put_ unaligned(val, ptr); 
某 些 体系 架构 需要 使 用 这 些 宏 来 保护 未 对 齐 的 数据 。 对 于 允许 访问 未 对 齐 数据 的 体 
系 架构 ， 这 些 宏 扩展 为 普通 的 指针 取 值 。 


#include <linux/err.h> 
void *ERR_PTR(long error); 
long PTR_ERR(const void *ptr); 
long IS_ERR(const void *ptr); 
这 些 函 数 允许 从 返回 指针 值 的 函数 中 获得 错误 编码 。 


#include <linux/list.h> 

list_add(struct list_head *new, struct list_head *head); 
list_add taill(struct list. head *new, struct list_head *head); 
list del{struct list_head *entry); 

list del_initl(struct list_head *entry); 

list_empty(struct list_head *head); 

list_entry{entry, type, member); 

list move(lstruct list_head *entry, struct list_head *head); 

list move_ taill(lstruct list head *entry, struct list_head *head); 
list_splicel(struct list_head *]list, struct list_head *head); 


操作 循环 、 双 向 链表 的 函数 。 


list_for_each{struct list_head *cursor, struct list_head *1ist) 
list_for_each prevlstruct list_head *cursor, struct list_head *list) 
list_for each safe{struct list_head *cursor, struct list_ head *next, struct 
list. head *1ist) 
list_for_each_entry (type *cursor, struct list_head *list, member)} 
list_for_each_ entry_safel(type *cursor, type *next struct 1ist_head *list, 
member) 
遍历 链表 的 便利 宏 。 
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第 九 章 介绍 了 最 底层 的 硬件 控制 , 而 本 章 将 给 出 一 个 高 层 总 线 架构 的 综述 。 总 线 由 电气 
接口 和 编程 接口 构成 。 本 章 将 重点 讨论 编程 接口 。 


本 章 涉 及 到 许多 总 线 架构 。 不 过 ， 我 们 的 讨论 重点 是 用 于 访问 Peripheral Component 
Interconnect ( PCI， 外 围 设备 互联 ) 外 设 的 内 核 函数 ， 因 为 PCI 总 线 是 当今 普遍 使 用 在 
桌面 以 及 更 大 型 计算 机 上 的 外 设 总 线 , 而 且 该 总 线 是 内 核 中 得 到 最 好 支持 的 总 线 。 虽然 
ISA 总 线 基本 上 是 一 种 “ 裸 金属 ”类 型 的 总 线 , 但 在 电子 爱好 者 中 仍然 很 常用 ， 本 章 稍 
后 将 进行 介绍 。 不 过 , 除了 我 们 在 第 九 章 和 第 十 章 中 涉及 的 内 容 以 外 , 已 没有 太 多 需要 
介绍 的 了 。 


PCI 接口 


尽管 许多 计算 机 用 户 将 PCI 看 成 是 一 种 布置 电子 线路 的 方式 , 但 实际 上 它 是 一 组 完整 的 
规范 ， 定 义 了 计算 机 的 各 个 不 同 部 分 之 间 应 该 如 何 交互 。 


PCI 规 范 涵盖 了 与 计算 机 接口 相关 的 大 部 分 问题 。 我 们 不 打算 在 这 里 讲述 所 有 的 内 容 ; 
本 节 主 要 介绍 PCI 驱动 程序 如 何 寻 找 其 硬件 和 获得 对 它 的 访问 。 第 二 章 的 “模块 参数 ” 
一 节 以 及 第 十 章 的 “自动 检测 IRQ 编号 ”一 节 所 讨论 的 探测 技术 ， 也 可 用 于 PCI 设备， 
但 是 PCI 规 范 提供 了 一 种 更 好 的 探测 方法 。 


PCI 架构 被 设计 为 ISA 标准 的 替代 品 , 它 有 三 个 主要 目标 : 获得 在 计算 机 和 外 设 之 间 传 
输 数据 时 更 好 的 性 能 ; 尽 可 能 的 平台 无 关 ; 简化 往 系统 中 添加 和 删除 外 设 的 工作 。 


通过 使 用 比 ISA 更 高 的 时 钟 频率 , PCI 总 线 获 得 了 更 好 的 性 能 ; 它 的 时 钟 频率 一 般 是 25 
或 者 33 MHz (实际 的 频率 是 系统 时 钟 的 系数 ) ， 最 新 的 实现 达到 了 66 MHz 甚至 133 
MHz。 此 外 ， 它 配备 了 32 位 的 数据 总 线 ， 而 且 规范 已 经 包括 了 64 位 的 扩展 。 平 台 无 关 
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性 通常 也 是 计算 机 总 线 的 一 个 设计 目标 ， 对 PCI 来 说 平台 无 关 性 尤其 重要 、 因 为 PC 世 
界 一 直 以 来 都 是 由 一 些 处 理 器 特有 的 接口 标准 所 主宰 。 目 前 ，PCI 广泛 应 用 于 1A-32、 
Alpha、PowerPC、SPARC64 和 IA-64 等 系统 中 。 


和 驱动 程序 编写 者 息息相关 的 问题 是 接口 板 的 自动 检测 。PCI 设 备 是 无 跳 线 设备 〈 不 像 
大 部 分 的 老式 外 设 ) ， 可 在 引导 阶段 自动 配置 。 这 样 ， 设 备 虹 动 程序 必须 能 够 访问 设备 
中 的 配置 信息 以 便 完 成 初始 化 。 对 于 PCI 设备 来 说 ， 这 些 工作 无 需 探 测 就 能 完成 。 


PCI 寻 址 


每 个 PCI 外 设 由 一 个 总 线 编号 、 一 个 设备 编号 及 一 个 功能 编号 来 标识 。PCI 规 范 允 许 单 
个 系统 拥有 高 达 256 个 总 线 , 但 是 因为 256 个 总 线 对 于 许多 大 型 系统 而 言 是 不 够 的 ， 因 
此 ，Linux 目前 支持 PCI 域 。 每 个 PCI 域 可 以 拥有 最 多 256 个 总 线 。 每 个 总 线 上 可 支持 
32 个 设备 , 而 每 个 设备 都 可 以 是 多 功能 板 (例如 音频 设备 外 加 CD-ROM 驱动 器 ), 最 多 
可 有 八 种 功能 。 所 以 , 每 种 功能 都 可 以 在 硬件 级 由 一 个 16 位 的 地 址 (或 键 ) 来 标识 。 不 
过 , 为 Linux 编写 的 设备 驱动 程序 无 需 处 理 这 些 二 进 制 的 地 址 ， 因 为 它们 使 用 一 种 特殊 
的 数据 结构 (名 为 pci_daev) 来 访问 设备 。 


当前 的 工作 站 一 般配 置 有 至 少 两 个 PCI 总 线 。 在 单个 系统 中 插 人 多 个 总 线 ， 可 通过 恬 
(bridge ) 来 完成 ， 它 是 用 来 连接 两 个 总 线 的 特殊 PCI 外 设 。 PCI 系 统 的 整体 布局 组 织 为 
树 型 ， 其 中 每 个 总 线 连 接 到 上 一 级 总 线 ， 直 到 树 根 的 0 号 总 线 。CardBus PC 卡 系统 也 
是 通过 桥 连 接 到 PCI 系 统 的。 典型 的 PCI 系 统 可 见 图 12-1, 其 中 标记 出 了 各 种 不 同 的 桥 。 








12-1: 典型 PCI 系 统 的 布局 
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尽管 和 PCI 外 设 关联 的 16 位 硬件 地 址 通常 隐藏 在 struct pci_dev 对象 中 ,但 有 时 仍 
然 可 见 , 尤其 是 这 些 设备 正在 被 使 用 时 。lspci (pciutils 包 的 一 部 分 , 包含 在 大 多 数 发 行 
版 中 ) 的 输出 以 及 /proc/pci 和 /procibusipci 中 信息 的 布局 就 是 这 种 情况 ,PCI 设备 在 sysfs 
中 的 表示 同样 展现 了 这 种 寻 址 方案 , 此 外 还 有 PCI 域 的 信息 ( 注 1)。 在 显示 硬件 地 址 时 ， 
有 时 显示 为 两 个 值 (一 个 8 位 的 总 线 编号 和 一 个 8 位 的 设备 及 功能 编号 ), 有 时 显示 为 三 
个 值 (总 线 、 设 备 和 功能 )， 有 了 时 显示 为 四 个 值 ( 域 、 总 线 、 设 备 和 功能 ); 所 有 的 值 通 
常 都 以 16 进 制 显示 。 


例如 ,/proc/busipcildevices 使 用 单个 16 位 字段 (便于 解析 及 排序 ), 而 /proc/bus/busnumber 
将 地 址 划分 成 了 三 个 字段 。 下 面 说 明了 这 些 地 址 如 何 出 现 ,只 列 出 了 输出 行 的 开始 部 分 : 


$ lepci | cut -d: -£1-3 
0000:00:00.0 Host bridge 


0000:00:00.1 RAM memory 
0000:00:00.2 RAM memory 
0000:00:02.0 USB Controller 
0000:00:04.0 Multimedia audio CONCrol Ter 
0000:;00:06.0 Bridge 

0000:00:07.0 ISA bridge 
0000:00:09.0 USB Controller 
0000:00:09.1 USB Controller 
0000:00:09.2 USB Controller 
0000:00:0c.0 CardBus bridge 
0000:;00:0f .0 IDE interface 
0000:00:10.0 Ethernet controller 
0000:00:12.0 Network controller 
0000:00:13.0 FireWire (IEEE 1394) 


0000:00:14.0 VGA compatible controller 
$ cat /proc/bus/pci/devices | cut -f1 
0000 
0001 
0002 
0010 





注 1: 某 些 体系 架构 也 会 在 lprocipci 和 /procibusipci 文件 中 显示 PCI 域 信息 。 
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$ tree /sys/bus/pci/devices/ 
/sys/bus/pci/devices/ 


|-- 0000:00:00.0 -> ../../../devices/pci0000:00/0000:00:00.0 
|-- 0000:00:00.1 -> 1,../,. /devices/pci0000:00/0000:00:00.1 
|-- 0000:00:00.2 -> /../,./devices/pci0000:00/0000:00:00.2 
|-- 0000:00:02.0 -> 1. /devices/pci0000:00/0000:00:02.0 
|-- 0000:00:04.0 -> /../../Aevices/pci0000:00/0000:00:04.0 
|-- 0000:00:06.0 -> ,ydaevices/Vpci0000:00/70000:00:06.0 
[|-- 0000:00:07.0 -> y,,/,./aevices/Vpci0000:0070000:00:07.0 
1-- 0000:00:09.0 -> /../../devices/pci0000:00/0000:00:09.0 
|-- 0000:00:09.1 -> /,../,,./devices/pci0000:00/0000:00:09.1 
|== 0000:00:09.2 -> /,,/,./devices/pci0000:00/0000:00:09.2 
|-- 0000:00:0c.0 -> /../,, /devices/pci0000:00/0000:00:0c.0 
|-- 0000:00:0f.0 -> /../.. /devices/pci0000:00/0000:00:0£.0 
1-- 0000:00:10.0 -> /../../devices/pci0000:00/0000:00:10.0 
|-- 0000:00:12.0 -> ../../../devices/pci0000:00/0000:00:12.0 
|-- 0000:00:13.0 -> /../../devices/pci0000:00/0000:00:13.0 
-- 0000:00:14.0 -> /../../devices/pci0000:00/0000:;00:14.0 


这 三 个 设备 清单 以 相同 的 顺序 排列 , 因为 /spci 使 用 /proc 文 件 作为 其 信息 来 源 。 以 VGA 
视频 控制 器 为 例 ， 当 划分 为 域 (16 位 )、 总 线 (8 位 )、 设 备 (5 位 ) 和 功能 (3 位 ) 时 ， 
0x00a0 表 示 0000:00:14.0。 


每 个 外 设 板 的 硬件 电路 对 如 下 三 种 地 址 空间 的 查询 进行 应 答 : 内 存 位 置 、IO 端口 和 配 
置 寄存 器 。 前 两 种 地 址 空间 由 同一 PCI 总 线 上 的 所 有 设备 共享 (也 就 是 说 , 在 访问 内 存 
位 置 时 ,该 PCI 总线 上 的 所 有 设备 将 在 同一 时 间 看 到 总 线 周 期 )。 另 一 方面 ， 配 置 空间 
利用 了 地 理 寻 址 (geographical addressing )。 配 置 查询 每 次 只 对 一 个 槽 寻 址 ,因此 它们 
根本 不 会 发 生 任何 冲突 。 


对 驱动 程序 而 言 ， 内 存 和 IO 区 域 是 以 惯常 的 方式 ， 即 通过 inb 和 readb 等 等 进行 访问 
的 。 另 一 方面 , 配置 事务 是 通过 调用 特定 的 内 核 函数 访问 配置 寄存 器 来 执行 的 。 关 于 中 
断 , 每 个 PCI 槽 有 四 个 中 断 引 憩 ， 每 个 设备 功能 可 使 用 其 中 的 一 个 ， 而 不 用 考虑 这 些 引 
脚 如 何 连接 到 CPU 。 这 种 路 由 是 计算 机 平台 的 职责 ,实现 在 PCI 总 线 之 外 。 因 为 PCI 规 
范 要 求 中 断 线 是 可 共享 的 , 因此 ， 即 使 是 IRQ 线 有 限 的 处 理 器 (例如 x86) 仍然 可 以 容 
纳 许多 PCI 接口 板 (每 个 有 四 个 中 断 引 脚 ) 。 


PCI 总 线 中 的 IO 空间 使 用 32 位 地 址 总 线 (因此 可 有 4 GB 个 端口 )， 而 内 存 空间 可 通 
过 32 位 或 64 位 地 址 来 访问 。 64 位 地 址 在 较 新 的 平台 上 可 用 . 通常 假定 地 址 对 设备 是 唯 
一 的 ,但 是 软件 可 能 会 错误 地 将 两 个 设备 配置 成 相同 的 地 址 ， 导 致 无 法 访问 这 两 个 设 
备 。 但 是 ,如果 驱动 程序 不 去 访问 那些 不 应 该 访问 的 寄存 器 ,就 不 会 发 生 这 样 的 问题 。 
幸好 , 接口 板 提供 的 每 个 内 存 和 IO 地 址 区 域 , 都 可 以 通过 配置 事务 的 方式 进行 重新 映 
射 。 就 是 说 , 固件 在 系统 引导 有 时 初始 化 PCI 硬 件 , 把 每 个 区 域 映 射 到 不 同 的 地 址 以 避免 
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促 突 ( 注 2)。 这 些 区域 所 映射 到 的 地 址 可 从 配置 空间 中 读 取 ， 因此 ，Linux 驱动 程序 不 
需要 探 而 就 能 访问 其 设备 。 在 读 取 配 置 寄 存 器 之 后 ， 驱 动 程序 就 可 以 安全 访问 其 硬件 。 


PCI 配 置 空间 中 每 个 设备 功能 由 256 个 字 市 组 成 (除了 PCI 快 速 设备 以 外 ， 它 的 每 个 功 
能 有 4 KB 的 配置 空间 )， 配 置 寄存 器 的 布局 是 标准 化 的 . 配置 空间 的 4 个 字 节 含有 一 个 
独一无二 的 功能 ID ， 因 此， 虹 动 程序 可 通过 查询 外 设 的 特定 ID 来 识别 其 设备 ( 注 3)。 
概 言 之 , 每 个 设备 板 是 通过 地 理 寻 址 来 获取 其 配置 寄存 器 的 ; 这 些 寄存 器 中 的 信息 随后 
可 以 被 用 来 执行 普通 的 IO 寻 址 ， 而 不 再 需要 额外 的 地 理 寻 址 。 


到 此 应 该 清楚 的 是 ,PCI 接口 标准 在 ISA 之 上 的 主要 创新 在 于 配置 地 址 空间 。 因 此 ， 除 
了 通常 的 驱动 程序 代码 之 外 ,PCI 驱 动 程序 还 需要 访问 配置 空间 的 能 力 ， 以便 免 去 冒险 
探测 的 工作 。 


在 本 章 其 余 内 容 中 , 我们 将 使 用 “设备 ”一 词 来 表示 一 种 设备 功能 , 因为 多 功能 板 上 的 
每 个 功能 都 可 以 担当 一 个 独立 实体 的 角色 。 我 们 谈 到 设备 时 ， 表 示 的 是 一 组 “ 域 编号 、 
总 线 编号 、 设 备 编 号 和 功能 编号 ”。 


引导 阶段 


为 了 解 PCI 的 工作 原理 ， 我 们 需要 从 系统 引导 开始 讲 起 ， 因 为 这 是 配置 设备 的 阶段 。 


当 PCI 设 备 上 电 时 , 硬件 保持 未 激活 状态 。 换 句 话说 , 该 设备 只 会 对 配置 事务 做 出 响应 。 
上 电 时 , 设备 上 不 会 有 内 存 和 LO 端口 映射 到 计算 机 的 地 址 空间 ; 其 他 设备 相关 功能 , 例 
如 中 断 报告 ， 也 被 禁止 。 


幸运 的 是 , 每 个 PCI 主 板 均 配备 有 能 够 处 理 PCI 的 固件 , 称 为 BIOS、NVRAM 或 PROM ,， 
这 取决 于 具体 的 平台 。 固件 通过 读 写 PCI 控 制 器 中 的 寄存 器 , 提供 了 对 设备 配置 地 址 空 
间 的 访问 。 


系统 引导 时 ， 固件 (或 者 Linux 内 核 ， 如 果 这 样 配置 的 话 ) 在 每 个 PCI 外 设 上 执行 配置 
事务 ,以便 为 它 提 供 的 每 个 地 址 区 域 分 配 一 个 安全 的 位 置 , 当 驱动 程序 访问 设备 的 时 候 ， 
它 的 内 存 和 IO 区 域 已 经 被 映射 到 了 处 理 器 的 地 址 空间 。 驱 动 程序 可 以 修改 这 个 默认 配 
置 ， 不 过 从 来 不 需要 这 样 做 。 





2 实际 上 ,配置 并 不 限于 系统 引导 阶段 ， 比 如 热 插 所 设备 在 引导 阶段 并 不 存在 ， 而 是 在 后 
来 才 会 出 现 。 这 里 的 要 点 是 ， 设 备 驱 动 程序 不 能 修改 HO 和 内 存 区 域 的 地 址 。 

让 我 们 可 从 设备 自己 的 硬件 手册 中 找到 ID。 文 件 pci.ids 中 包含 有 一 个 清单 ， 该 文件 是 
pciutils 包 和 内 核 源 代码 的 一 部 分 。 该 文件 并 不 完整 ， 而 只 是 列 出 了 最 著名 的 制造 商 及 
设备 。 该 文件 的 内 核 版 本 将 在 未 来 的 版 本 中 误 除 。 
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我 们 曾经 讲 过 ,用 户 可 以 通过 读 取 /proc/busipcildevices 和 /procibusipcil*/* 来 查看 PCI 
设备 清单 和 设备 的 配置 寄存 器 。 前 者 是 个 包含 有 十 六 进 制 的 设备 信息 的 文本 文件 ,而 后 
者 是 若干 二 进 制 文件 ， 报 告 了 每 个 设备 的 配置 寄存 器 快照 、 每 个 文件 对 应 一 个 设备 。 
sysfs 树 中 的 个 别 PCI 设 备 目录 可 以 在 /sys/bus/pciidevices 中 找到 。 一 个 PCI 设 备 自 录 包 
含 许多 不 同 的 文件 : 

$ tree /gys/bpus/pci/devices/0000:00:10.0 

/sys/bus/pci/devices/0000:00:10.0 

|-- class 

|-- config 

1-- detach state 

|-- device 

|-= irg 

|-- power 

| “-- state 

1-- resource 

|-- subsystem device 


|-- subsystem_vendor 
‘-- vendor 


config 文件 是 一 个 二 进 制 文件 ， 使 原始 PCI 配 置信 息 可 以 从 设备 读 取 (就 像 /proc/bus/ 
pci/*/* 所 提供 的 )。vendor、device、subsystem_device、subsystem_vendor 和 ciass 都 表 
示 该 PCI 设备 的 特定 值 (所 有 的 PCI 设 备 都 提供 这 个 信息 )。irgq 文件 显示 分 配给 该 PCI 
设备 的 当前 IRQ，resource 文件 显示 该 设备 所 分 配 的 当前 内 存 资 源 。 


配置 寄存 器 和 初始 化 


在 本 节 中 我 们 将 查看 PCI 设 备 包含 的 配置 寄存 器 。 所 有 的 PCI 设 备 都 有 至 少 256 字 节 的 
地 址 空间 。 前 64 字 节 是 标准 化 的 ， 而 其 余 的 是 设备 相关 的 。 图 12-2 显示 了 设备 无 关 的 
配置 空间 的 布局 。 


如 图 12-2 所 示 , 某 些 PCI 配 置 寄存 器 是 必需 的 , 而 某 些 是 可 选 的 。 每 个 PCI 设 备 必 须 在 
必需 的 寄存 器 中 包含 有 效 值 , 而 可 选 寄存 器 中 的 内 容 依赖 于 外 设 的 实际 功能 。 可 选 字段 
通常 无 用 , 除非 必需 字段 的 内 容 表明 它们 是 有 效 的 。 这 样 ， 必 需 的 字段 声明 了 板子 的 功 
能 ， 包 括 其 他 字段 是 否 有 用 。 


值得 注意 的 是 ，PCI 寄 存 器 始终 是 小 头 的 。 尽 管 标准 被 设计 为 体系 结构 无 关 的 ， 但 PCI 
设计 者 仍然 有 点 偏好 PC 环境 。 驱 动 程序 编写 者 在 访问 多 字 节 的 配置 寄存 器 时 ， 要 十 分 
注意 字 节 序 , 因为 能 够 在 PC 上 工作 的 代码 到 其 他 平台 上 可 能 就 无 法 工作 。Linux 开 发 人 
员 已 经 注意 到 了 字 节 序 问题 ( 见 下 一 节 “ 访 问 配 置 空间 ”), 但 是 这 个 问题 必须 被 牢记 心 
中 。 如 果 需 要 把 数据 从 系统 固有 字 节 序 转换 成 PCI 字 节 序 ,或 者 相反 ,， 则 可 以 借助 定义 
在 <asm/byteorder.h> 中 的 函数 , 这 些 函 数 在 第 十 一 章 中 介绍 过 了 , 注意 PCI 字 节 序 是 小 
头 的 。 
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子 系统 子 系统 
厂商 几 设备 ID 


中 断 | Min_Gnt | Max_Lat 
党 引 脚 


| -可 选 的 寄存 器 





12-2: 标准 化 的 PCI 配置 寄存 器 


对 这 些 配 置 项 的 描述 已 经 超过 了 本 书 讨论 的 范围 。 通常 , 随 设备 一 同 发 布 的 技术 文档 会 
详细 描述 已 支持 的 寄存 器 。 我 们 所 关心 的 是 , 驱动 程序 如 何 查 询 设 备 , 以 及 如 何 访 问 设 
备 的 配置 空间 。 


用 三 个 或 五 个 PCI 寄 存 器 可 标识 一 个 设备 : vendorID、deviceID 和 class 是 常用 的 三 
个 寄存 器 。 每 个 PCI 制 造 商 会 将 正确 的 值 赋予 这 三 个 只 读 寄存 器 ,驱动 程序 可 利用 它们 
查询 设备 。 此 外 ， 有 时 厂商 利用 subsystem vendorID 和 subsystem deviceID 两 个 
字段 来 进一步 区 分 相似 的 设备 。 


F 面 是 这 些 寄 存 器 的 详细 介绍 。 


vendorID 
这 是 一 个 16 位 的 寄存 器 ， 用 于 标识 硬件 制造 商 。 例 如 ,每 个 Intel 设备 被 标识 为 同 
一 个 厂商 编号 ， 即 0x8086。PCI Special Interest Group 维护 有 一 个 全 球 的 厂商 编 
号 注册 表 ， 制 造 商 必须 申请 一 个 唯一 编号 并 赋 于 它们 的 寄存 器 。 

deviceID 
这 是 另外 一 个 16 位 寄存 器 ， 由 制造 商 选择 ; 无 需 对 设备 ID 进行 官方 注册 。 该 ID 
通常 和 厂商 ID 配对 生成 一 个 唯一 的 32 位 硬件 设备 标识 符 。 我 们 使 用 签名 
(signature ) 一 词 来 表示 一 对 厂商 和 设备 ID.。 设备 驱动 程序 通常 依靠 于 该 签名 来 识 
别 其 设备 ; 可 以 从 硬件 手册 中 找到 目标 设备 的 签名 值 。 
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class 
每 个 外 部 设备 属于 某 个 类 (class )。class 寄存 器 是 一 个 16 位 的 值 , 其 中 高 8 位 标 
识 了 “大 类 (base class)”、 或 者 组 。 例 如 , “ethernet (以 太 网 )” 和 “token ring 
( 令 牌 环 )” 是 同属 “network (网 络 ) ”组 的 两 个 类 ,而 “serial ( 串 行 )” 和 “parallel 
(并 行 )” 类 同属 “communication (通信 ) ”组 。 某 些 驱 动 程序 可 支持 多 个 相似 的 设 
备 ， 每 个 具有 不 同 的 签名 , 但 都 属于 同一 个 类 ; 这 些 驱 动 程序 可 依靠 class 寄存 
器 来 识别 它们 的 外 设 ， 如 后 所 述 。 

subsystem vendorID 

subsystem deviceID 
这 两 个 字段 可 用 来 进一步 识别 设备 。 如 果 设 备 中 的 芯片 是 一 个 连接 到 本 地 板 载 
(onboard ) 总 线 上 的 通用 接口 芯片 , 则 可 能 会 用 于 完全 不 同 的 多 种 用 途 , 这 时 , 虹 
动 程序 必须 识别 它 所 关心 的 实际 设备 。 子 系统 标识 符 就 用 于 此 目的 。 


PCI 驱动 程序 可 以 使 用 这 些 不 同 的 标识 符 来 告诉 内 核 它 支持 什么 样 的 设备 。struct 
pci_device_id 结 构 体 用 于 定义 该 驱动 程序 支持 的 不 同类 型 的 PCI 设 备 列表 ,该 结构 体 
包含 下 列 字段 : 


__Uu32 vendor; 

__u32 device; 
它们 指定 了 设备 的 PCI 厂 商 和 设备 ID。 如 果 驱 动 程序 可 以 处 理 任 何 厂 商 或 者 设备 
ID ， 这 些 字段 应 该 使 用 值 PCI_ANY_ID。 


__u32 subvendor; 

__uU32 subdevice; 
它们 指定 设备 的 PCI 子 系统 厂商 和 子 系统 设备 ID 。 如 果 驱 动 程序 可 以 处 理 任何 类 
型 的 子 系统 ID ， 这 些 字段 应 该 使 用 值 PCI_ANY_ID。 

__u32 class; 

__u32 class_mask; 
这 两 个 值 使 驱动 程序 可 以 指定 它 支持 一 种 PCI 类 (class) 设备 。 PCI 规 范 中 描述 了 
不 同类 的 PCI 设 备 (例如 VGA 控 制 器 )。 如果 驱 动 程序 可 以 处 理 任 何 类 型 的 子 系统 
ID， 这 些 字段 应 该 使 用 值 PCI_ANY_ID。 

kernel_ulong_t driver data; 
该 值 不 是 用 来 和 设备 相 匹 配 的 ,而 是 用 来 保存 PCI 驱 动 程序 用 于 区 分 不 同 设备 的 信 
息 ， 如 果 它 需要 的 话 。 


应 该 使 用 两 个 辅助 宏 来 进行 struct pci_device_id 结 构 体 的 初始 化 : 
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PCI_DEVICE{vendor, device) 
它 创 建 一 个 仅 和 特定 广 商 及 设备 ID 相 匹 配 的 struct pci_device_id。 这 个 宏 把 
结构 体 的 subvendor 和 subdevice 字段 设置 为 PCI_ANY_ID， 


PCI_DEVICE_CLASS (device_class, device_class mask) 
它 创建 一 个 和 特定 PCI 类 相 匹 配 的 struct pci_dqevice_ia。 


下 面 的 内 核 文件 中 给 出 了 一 个 使 用 这 些 宏 来 定义 驱动 程序 支持 的 设备 类 型 的 例子 : 
drivers/usb/host/ehci-hcd.c: 


static const struct pci_device_id pci_ids{ ] = {({ 
/* 由 任何 USB 2.0 EHCI 控制 器 处 理 */ 
PCI_DEVICE_CLASS(((PCI_CLRSS_SERIAL USB << 8) | 0x20) ，~0)， 
.driver data = (unsigned long) g&ehci_ driver, 
小 
{ /* 结束 : 金 部 为 零 */ ]} 
中 


drivers/i2c/busses/i2c-i810.c: 

static struct pci_device_id i810_ids[ }】=( 

PCI_DEVICE (PCI_VENDOR_ID INTEL, PC I_DEVICE_ID_INTEL_82810_IG1) 
{ PCI_DEVICE{PCI_VENDOR_ID_INTEL，PCI_DEVICE_ID_INTEL_82810_IG3) 
{ PCI_DEVICE (PCI_VENDOR_ID_INTEL，PCI_DEVICE_ID_INTEL_82810E_IG) 
{ PCT_DEVICE(PCI_VENDOR_ID INTEL, PCI_DEVICE_ID_INTEL_82815_CGC) 
{ 
{ 


~ 


A 


PCI_DEVICE (PCI_VENDOR_ID_INTEL, PCI_DEVICE_ID_INTEL_82845G_IG) 
Qs 二 
， 
这 些 例子 创建 了 一 个 struct pci_device_id 结 构 体 数组 ， 数 组 的 最 后 一 个 值 是 全 部 
设置 为 0 的 空 结构 体 。 这 个 ID 数组 被 用 在 struct pci_ariver 中 ( 稍 后 描述 ), 它 还 
被 用 于 告知 用 户 空 间 这 个 特定 的 驱动 程序 支持 什么 设备 。 


MODULE_DEVICE_TABLE 


这 个 pci_daevice_ia 结 构 体 需要 被 导出 到 用 户 空间 ,使 热 插 拔 和 模块 装载 系统 知道 什 
么 模块 针对 什么 硬件 设备 。 宏 MODULE_DEVICE_TABLE 完成 这 个 工作 。 例 子 : 


MODULE_DEVICE_TRBLE (pci, i810_ids); 


该 语句 创建 一 个 名 为 “__mod_pci_device_table 的 局 部 变量 ， 指 向 struct 
pci_device_id 数 组 。 在 稍 后 的 内 核 构建 过 程 中 , depmod 程 序 在 所 有 的 模块 中 搜索 符 
号 __mod_pci_device_table。 如 果 找 到 了 该 符号 ， 它 把 数据 从 该 模块 中 抽出 ， 添 加 
到 文件 Wib/modulesIKERNEL_VERSIONImodules.pcimap 中 。 当 depmod 结束 之 后 ， 内 
核 模块 支持 的 所 有 PCI 设 备 连同 它们 的 模块 名 都 在 该 文件 中 被 列 出 。 当 内 核 告 知 热 插 拔 
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系统 一 个 新 的 PCI 设 备 已 经 被 发 现时 , 热 插 拔 系统 使 用 modules.pcimap 文 件 来 寻找 要 装 
载 的 恰当 的 驱动 程序 。 


注册 PCI 驱动 程序 


为 了 正确 地 注册 到 内 核 ， 所 有 的 PCI 驱动 程序 都 必须 创建 的 主要 结构 体 是 struct 
pci_driver 结 构 体 。 该 结构 体 由 许多 回调 函数 和 变量 组 成 , 向 PCI 核 心 揽 述 了 PCI 驱 
动 程序 。 下 面 列 出 了 该 结构 体 中 PCI 驱动 程序 必须 注意 的 字段 : 


const char *name; 
驱动 程序 的 名 字 。 在 内 核 和 的 所 有 PCI 驱 动 程序 中 它 必须 是 唯一 的 , 通常 被 设置 为 和 
驱动 程序 的 模块 名 相同 的 名 字 。 当 驱动 程序 运行 在 内 核 中 时 ， 它 会 出 现在 sysfs 的 
lsysibusipcildrivers/ 下 面 。 


const struct pci_device_id *id table; 
指向 本 章 前 面 介绍 的 struct pci_device_id 表 的 指针 。 

int {*probe) (struct pci_dev *dev, const struct pci_device_iqd *id); 
指向 PCI 驱 动 程序 中 的 探测 函数 的 指针 。 当 PCI 核 心 有 一 个 它 认 为 驱动 程序 需要 控 
制 的 struct pci_dev 时 ,就 会 调用 该 函数 。PCI 核心 用 来 做 判断 的 struct 
pci_device_id 指针 也 被 传递 给 该 函数 。 如 果 PCI 驱动 程序 确认 传递 给 它 的 
struct pci_dev， 则 应 该 恰当 地 初始 化 设备 然后 返回 0。 如 果 驱 动 程序 不 确认 该 
设备 , 或 者 发 生 了 错误 , 它 应 该 返回 一 个 负 的 错误 值 。 本 章 稍 后 将 对 该 函数 做 更 详 
细 的 介绍 。 

void {*remove) (struct pci_dev *dev); 
指向 一 个 移 除 函数 的 指针 ， 当 struct pci_dev 被 从 系统 中 移 除 ， 或 者 PCI 驱动 
程序 正在 从 内 核 中 印 载 时 , PCI 核 心 调用 该 函数 。 本章 稍 后 将 对 该 函数 做 更 详细 的 
介绍 。 

int (*suspend} {struct pci_dev *dev, u32 state); 
指向 一 个 挂 起 函数 的 指针 , 当 struct pci_dev 被 挂 起 时 PCI 核 心 调用 该 函数 。 挂 
起 状态 以 state 变量 来 传递 。 该 函数 是 可 选 的 ， 驱 动 程序 不 一 定 要 提供 。 

int (*resume) {struct pci.dev *dev); 
指向 一 个 恢复 函数 的 指针 , 当 struct pci_dev 被 恢复 时 PCI 核 心 调用 该 函数 . 它 
总 是 在 挂 起 函数 已 经 被 调用 之 后 被 调用 。 该 函数 是 可 选 的 ， 驱 动 程序 不 一 定 要 提 
供 。 


概 言 之 ， 为 了 创建 一 个 正确 的 struct pci_driver 结 构 体 ， 只 需要 初始 化 四 个 字段 : 
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static struct pci_driver pci_dqriver = { 
-name = "pci_skel", 
.id table = ids, 
.Probe = probe, 
.remove = remove, 
}?; 
为 了 把 struct pci_driver 注 册 到 PCI 核 心中 ， 需 要 调用 以 struct pci_driver 指 
针 为 参数 的 pci_regisrer_driver 函数 。 通 常 在 PCI 上 驱动 程序 的 模块 初始 化 代码 中 完成 该 
工作 : 
static int . _init pci_ skel_initt{void) 
{ 
return pci_ register_driver(&pci_driver}; 
} 
注意 ， 如 果 注 册 成 功 ，pci_register_driver 函数 返回 0; 否则 , 返回 一 个 负 的 错误 编号 。 
它 不 会 返回 绑 定 到 驱动 程序 的 设备 的 数量 ,或 者 在 设 有 设备 绑 定 到 驱动 程序 时 返回 一 个 
错误 编号 。 这 是 2.6 发 布 之 后 的 一 个 变化 ， 基 于 下 列 情形 的 考虑 : 


。 ”在 支持 PCI 热 插 拔 的 系统 或 者 CardBus 系 统 上 , PCI 设 备 可 以 在 任何 时 刻 出 现 或 者 
消失 。 如 果 驱 动 程序 能 够 在 设备 出 现 之 前 被 装载 的 话 是 很 有 帮助 的 ,这样 可 以 减少 
初始 化 设备 所 花 的 时 间 。 


。 “2.6 内 核 允 许 在 驱动 程序 被 装载 之 后 动态 地 分 配 新 的 PCI ID 给 它 。 这 是 通过 文件 
new_id 来 完成 的 ， 该 文件 位 于 sysfs 的 所 有 PCI 驱动 程序 目录 中 。 这 是 非常 有 用 
的 ， 如 果 正 在 使 用 的 新 的 设备 还 没有 被 内 核 所 认 知 的 话 。 用 户 可 以 把 PCI ID 的 值 
写 到 new_id 文 件 ， 之 后 驱动 程序 就 可 绑 定 新 的 设备 。 如 果 在 设备 没有 出 现在 系统 
中 之 前 不 允许 装载 驱动 程序 的 话 ， 该 接口 将 不 起 作用 。 


当 PCI 驱动 程序 将 要 被 卸载 的 时 候 ， 需要 把 struct pci_driver 从 内 核 注销 。 这 是 通 
过 调用 pei_unregister_driver 来 完成 的 。 当 该 函数 被 调用 时 ， 当 前 绑 定 到 该 驱动 程序 的 
任何 PCI 设 备 都 被 移 除 ,该 PCI 驱动 程序 的 移 除 函数 在 pci_unregister_driver 函数 返回 
之 前 被 调用 。 

static void _ _exit pci_skel_ exit (void) 

{ 


pci_unregister_ driver{&pci_driver); 
} 


老式 PCI 探测 


在 稍 老 的 内 核 版 本 中 ，PCI 驱动 程序 并 不 总 是 使 用 pci_register_driver 函数 。 它 们 不 是 
手工 搜寻 系统 中 的 PCI 设备 列表 ， 就 是 调用 一 个 可 以 查找 特定 PCI 设备 的 函数 。 在 2.6 
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内 核 中 , 驱动 程序 搜寻 系统 中 PCI 设 备 列表 的 能 力 已 经 被 去 掉 , 以 防止 驱动 程序 使 内 核 
崩溃 ; 当 一 个 设备 正在 被 移 除 时 ,如果 驱动 程序 正好 在 修改 PCI 设 备 列表 , 就 会 发 生 这 
个 危险 。 


如 果真 的 需要 查找 特定 PCI 设备 的 能 力 的 话 ， 可 以 使 用 下 面 的 函数 : 


struct pci_dev *pci_get_device(unsigned int vendor, unsigned int device, 
struct pci_dev *from); 
该 函数 扫描 系统 中 当前 存在 的 PCI 设 备 列表 ， 如 果 输 入 参数 和 指定 厂商 及 设备 ID 
相 匹 配 的 话 ， 它 增加 所 发 现 的 struct pci_dev 变量 的 引用 计数 ， 然 后 将 其 返 
回 给 调用 者 。 这 避免 了 该 结构 体 无 声 地 消失 ， 从 而 保证 不 出 现 内 核 不 知 所 措 的 情 
况 。 当 struct pci_dev 由 该 函数 返回 之 后 , 驱动 程序 必须 调用 pci_dev_put 函数 
来 把 使 用 计数 适当 地 减 小 ， 以 允许 内 核 在 设备 被 移 除 时 把 它 清理 掉 。 


from 参 数 用 来 得 到 具有 同一 签名 的 多 个 设备 ; 该 参数 应 该 指向 已 经 被 找到 的 最 近 
一 个 设备 ,那么 查找 就 可 以 继续 而 不 用 从 列表 头 重新 开始 了 。 把 Erom 指 定 为 NULL 
可 以 查找 第 一 个 设备 。 如 果 没有 〔 其余 的 ) 设备 被 发 现 ， 返回 NULL。 


下 面 是 关于 如 何 正 确 使 用 该 函数 的 一 个 例子 : 


struct pci_dev *dev; 
dev = pci_get_device(PCI_VENDOR FOO, PCI_DEVICE_FOO, NULLD) ; 
if {dev) { 

/* 使 用 PCI 虹 动 程序 */ 


pci_dev_put {dev); 
} 


该 函数 不 能 在 中 断 上 下 文中 被 调用 。 如 果 这 么 干 , 会 在 系统 日 志 中 打印 一 条 警告 信 
息 。 


struct pci_dev *pci_get_subsys (unsigned int vendor, unsigned int device, 
unsigqned int ss_vendor, unsigned int ss_device, struct pci_dev *from); 
该 函数 和 pci_get_device 类 似 , 但 它 允 许 在 查找 设备 时 指定 子 系统 厂商 和 子 系统 设 

备 ID。 


该 函数 不 能 在 中 断 上 下 文中 被 调用 。 如 果 这 人 么 做 , 内 核 会 打印 一 条 警告 信息 到 系统 
日 志 中 。 

struct pci_dev *pci_get. slot(struct pci_bus *bus, unsigned int devfn)}); 
该 函数 在 指定 struct pci_bus 上 的 系统 PCI 设 备 列表 中 查找 指定 的 设备 和 PCI 
设备 的 功能 编号 。 如果 发 现 了 匹配 的 设备 , 该 设备 的 引用 计数 就 会 增加 , 然后 返回 
一 个 指向 它 的 指针 。 当 调用 者 结束 了 对 struct pci_dev 的 使 用 之 后 ， 它 必须 调 
用 pci_dev_put。 
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所 有 这 些 函 数 都 不 能 在 中 断 上 下 文中 被 调用 。 如果 这 么 干 , 会 在 系统 日 志 中 打印 一 条 警 
告 信息 。 


激活 PCI 设备 


在 PCI 驱动 程序 的 探测 函数 中 ， 在 驱动 程序 可 以 访问 PCI 设备 的 任何 设备 资源 之 前 
(LO 区 域 或 者 中 断 )， 驱 动 程序 必须 调用 pci_enable_device 国 数 : 


int pci_enable_ devicel(struct pci_dev *dev); 
该 函数 实际 地 激活 设备 。 它 把 设备 唤醒 , 在 某 些 情 况 下 还 指派 它 的 中 断 线 和 LO 区 
域 。CardBus 设备 就 是 这 种 情况 (在 驱动 程序 层 和 PCI 完 全 一 样 )。 


访问 配置 空间 


在 驱动 程序 检测 到 设备 之 后 , 它 通常 需要 读 取 或 写 人 三 个 地 址 空间 : 内 存 、 端口 和 配置 。 
对 驱动 程序 而 言 ， 对 配置 空间 的 访问 至 关 重 要 ， 因 为 这 是 它 找到 设备 映射 到 内 存 和 IO 
空间 的 什么 位 置 的 唯一 途径 。 


因为 处 理 器 没有 任何 直接 访问 配置 空间 的 途径 ， 因 此 ， 计算 机 厂商 必须 提供 一 种 办 法 。 
为 了 访问 配置 空间 , CPU 必须 读 取 或 写 人 人 PCI 控制 器 的 寄存 器 , 但 具体 的 实现 取决 于 计 
算 机 厂商 ， 和 我 们 这 里 的 讨论 无 关 ， 因 为 Linux 提供 了 访问 配置 空间 的 标准 接口 。 


对 于 驱动 程序 而 言 ， 可 通过 8 位 、16 位 或 32 位 的 数据 传输 访问 配置 空间 。 相 关 函 数 的 
原型 定义 在 <linuxipci.h> 中 : 


int pci_read config byte(struct pci dev *dev, int where, u8 *val); 

int pci_read config word{(struct pci_dev *dev, int where, ul16 *val); 

int pci_read config dword{struct pci_dev *dev, int where, u32 *val); 
从 由 dev 标识 的 设备 配置 空间 读 入 一 个 、 两 个 或 四 个 字 节 。where 参数 是 从 配置 
空间 起 始 位 置 计算 的 字 节 偏 移 量 。 从 配置 空间 获得 的 值 通过 val 指 针 返 回 , 函数 本 
身 的 返回 值 是 错误 码 。 word 和 dword 阳 数 会 将 读 取 到 的 little-endian 值 转换 成 处 理 
器 固有 的 字 节 序 ， 因 此 ， 我 们 自己 无 需 处 理 字 节 序 。 


int pci_write_config_byte(struct pci_dev *dev, int where, u8 val); 

int pci_write_ config wordl(struct pci_dev *dev, int where, ul16 val); 

int pci_write_config_ dword(struct pci_dev *dev, int where, u32 val); 
向 配置 空间 写 人 一 个 、 两 个 或 四 个 字 节 。 和 上 面 的 函数 一 样 ，dev 标识 设备 ,要 写 
入 的 值 通 过 val 传递 。word 和 dword 函数 在 把 值 写 人 外 设 之 前 , 会 将 其 转换 成 小 
头 字 节 序 。 
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所 有 前 面 的 函数 都 实现 为 inline 函数 ,它们 实际 上 调用 下 面 的 函数 。 在 驱动 程序 不 能 访 
问 struct pci_dev 的 任何 时 刻 ， 都 可 以 使 用 这 些 消 数 来 代替 上 述 消 数 。 


int pci_bus_read config byte (struct pci_bus *bus, unsigned int devfn, 
int where, u8 *val); 
int pci_bus read_config word (struct pci_bus *bus, unsigned int devfn, 
int where, uié6 *val); 
int pci_bus_read config_ dword {struct pci_bus *bus, unsigned int devfn, 
int where, u32 *val); 
类 似 于 pci_read_ 函数 ,但 需 用 到 pci_bus * 和 devfn 变量 ,而 不 用 struct 


pci_dev *。 


int pci_bus_write config_byte (struct pci bus *bus, unsigned int devfn, 
int where, u8 val); 
int pci_bus_write_config_word (struct pci_bus *bus, unsigned int devfn, 
int where, ul16 val); 
int pci_bus write config Gword (struct pci_bus *bus, unsigned int devfn, 
int where, u32 val); 
和 pci_write_ 系列 函数 类 似 ， 但 是 需要 struct pci_bus * 和 devfn 变量 , 而 不 


是 struct pci_dev *。 


使 用 pci_read_ 系 列 函 数 读 取 配置 变量 的 首选 方法 ， 是 使 用 <linux/pci.h> 中 定义 的 符号 
名 。 例如 ， 下面 的 小 函数 通过 给 pci_read_config_byte 函数 的 where 参 数 传递 一 个 符号 
名 来 获取 设备 的 修订 号 ID。 

static unsigned char skel_get_revision(struct pci_dev *dev) 


{ 


u8 revision; 


pci_read_config_ byte{dev, PCI_REVISION_ID, &revision); 
return revision; 


访问 MO 和 内 存 空间 


一 个 PCI 设 备 可 实现 多 达 6 个 IO 地 址 区 域 。 每 个 区 域 可 以 是 内 存 也 可 以 是 1O 地 址 。 大 
多 数 设备 在 内 存 区 域 实现 UO 寄存 器 , 因为 这 通常 是 一 个 更 明智 的 方法 (如 第 九 章 的 “IT 
0 端口 和 1/0 内 存 ” 一 节 所 述 )。 但 是 ， 不 像 常 规 内 存 ，UO 寄存 器 不 应 该 由 CPU 缓存 ， 
因为 每 次 访问 都 可 能 有 边际 作用 。 将 IO 寄存 器 实现 为 内 存 区 域 的 PCI 设 备 通过 在 其 配 
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置 寄存 器 中 设置 “内 存 是 可 预 取 的 (memory-is-prefetchable )” 标 志 来 标记 这 个 不 同 
( 注 4)。 如 果 内 存 区 域 被 标记 为 可 预 取 (prefetchable)， 则 CPU 可 缓存 其 内 容 ， 并 进行 
各 种 优化 。 另 一 方面 ， 对 非 可 预 取 的 (nonprefetchable ) 内 存 的 访问 不 能 被 优化 ， 因 为 
每 个 访问 都 可 能 有 边际 作用 ， 就 像 7O 端口 。 把 控制 寄存 器 映射 到 内 存 地 址 范围 的 外 设 
把 该 范围 声明 为 非 可 预 取 的 , 不 过 像 PCI 板 载 视频 内 存 这 样 的 东西 是 可 预 取 的 。 在 本 节 
中 ， 我 们 使 用 “区 域 ” 一 词 来 表示 一 般 的 10 地 址 空间 、 包 括 内 存 映 射 的 和 端口 映射 。 


一 个 接口 板 通过 配置 寄存 器 报告 其 区 域 的 大 小 和 当前 位 置 一 一 即 图 12-2 中 的 6 个 32 位 
寄存 器 ， 它 们 的 符号 名 称 为 PCI_BASE_ADDRESS_0 到 PCI_BASE_ADDRESS_5。 因 为 
PCI 定义 的 VO 空间 是 32 位 地 址 空间 ， 因此， 内 存 和 I/O 使 用 相同 的 配置 接口 是 有 道理 
的 。 如 果 设 备 使 用 64 位 的 地 址 总 线 ， 它 可 以 为 每 个 区 域 使 用 两 个 连续 的 
PCI_BASE_ADDRESS 寄 存 器 来 声明 64 位 内 存 空 间 中 的 区 域 (低位 优先 )。 对 一 个 设备 来 
说 ， 既 提供 32 位 区 域 也 提供 64 位 区 域 是 可 能 的 。 


在 内 核 中 ，PCI 设 备 的 IO 区 域 已 经 被 集成 到 通用 资源 管理 。 因 此 ， 我 们 无 需 访 问 配 置 
变量 来 了 解 设备 被 映射 到 内 存 或 IO 空间 的 何 处。 获得 区 域 信息 的 首选 接口 由 如 下 函数 
组 成 : 


unsigned long pci_resource_start (struct pci_dev *dev, int bar); 
该 函数 返回 六 个 PCI IO 区域 之 一 的 首 地 址 (内 存 地 址 或 WO 端口 号 )。 该 区 域 由 
整数 的 bar (base address register， 基 地 址 寄存 器 ) 指定 ，bar 的 取 值 为 0 到 5。 
unsigned long pci_resource_end{(struct pci_dev *dev, int bar); 
该 函数 返回 第 bar 个 IO 区 域 的 尾 地址 。 注意 这 是 最 后 一 个 可 用 的 地 址 , 而 不 是 该 
区 域 之 后 的 第 一 个 地 址 。 
unsigned long pci_resource_flags (struct pci dev *dev, int bar); 


该 函数 返回 和 该 资源 相关 联 的 标志 。 


资源 标志 用 来 定义 单个 资源 的 某 些 特性 。 对 与 PCI IO 区 域 相 关联 的 PCI 资源 ， 该 信 
息 从 基地 址 寄存 器 中 获得 ， 但 对 于 和 了 PCI 设 备 无 关 的 资源 ， 它 可 能 来 自 其 他 地 方 。 


所 有 资源 标志 定义 在 <linux/ioport.h> 中 ; 下 面 列 出 其 中 最 重要 的 几 个 : 


IORESOURCE_IO 
IORESOURCE_MEM 
如 果 相 关 的 IO 区 域 存在 ， 将 设置 这 些 标志 之 一 。 











注 4: 该 信息 保存 在 PCI 寄存 器 基地 址 的 低位 中 ， 这 些 位 定义 在 <linux/pci.h> 中 。 
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IORESOURCE_PREFETCH 

IORESOURCE. READONLY 
这 些 标 志 表 明 内 存 区 域 是 否 为 可 预 取 的 和 /或 是 写 保护 的 。 对 PCI 资 源 来 说 ,从 来 
不 会 设置 后 面 的 那个 标志 。 


通过 使 用 pci_resource_ 系 列 函 数 . 设备 驱动 程序 可 完全 忽略 底层 的 PCI 寄 存 器 , 因为 系 
统 已 经 使 用 这 些 寄 存 器 构建 了 资源 信息 。 


PCI 中 断 


很 容易 处 理 PCI 的 中 断 。 在 Linux 的 引导 阶段 , 计算 机 固件 已 经 为 设备 分 配 了 一 个 唯一 
的 中 断 号 ,驱动 程序 只 需 使 用 该 中 断 号 。 中 断 号 保存 在 配置 寄存 器 60( PCI_INTERRUPT_ 
LINE) 中 , 该 寄存 器 为 一 个 字 节 宽 。 这 允许 多 达 256 个 中 断 线 , 但 实际 的 限制 取决 于 所 
使 用 的 CPU。 驱 动 程序 无 需 检测 中 断 号 ， 因 为 从 PCI_INTERRUPT_LINE 中 找到 的 值 肯 
定 是 正确 的 。 


如 果 设 备 不 支持 中 断 ， 寄 存 器 61 ( PCI_INTERRUPT_PIN) 是 0; 否则 为 非 零 。 但 是 ， 因 
为 驱动 程序 知道 自己 的 设备 是 否 是 中 断 驱 动 的 ， 因 此 ， 它 通常 不 需要 读 取 
PCI_INTERRUPT_PIN 寄存 器 。 


这 样 ,处理 中 断 的 PCI 特 定 代码 仅仅 需要 读 取 配置 字 节 , 以 获取 保存 在 一 个 局 部 变量 中 
的 中 断 号 ， 如 下 面 的 代码 所 示 。 否 则 ， 要 利用 第 十 章 的 内 容 。 

result = pci_read_ config. byte(dev, PCI_INTERRUPT_LINE, tmyirqg); 

if (result) { 

/* 处 理 错误 */ 

} 
本 节 的 剩余 内 容 为 好 奇 的 读者 提供 了 一 些 附加 信息 ,但 它们 对 编写 驱动 程序 没有 多 少 帮 
助 。 


PCI 连接 器 有 四 个 中 断 引 脚 ， 外 设 板 可 使 用 其 中 任意 一 个 或 者 全 部 。 每 个 引 脚 被 独立 连 
接 到 主板 的 中 斯 控制 器 ， 因 此 ,中 断 可 被 共享 而 不 会 出 现任 何 电气 问题 。 然 后 ,中断 控 
制 器 负责 将 中 断 线 ( 引 脚 ) 映射 到 处 理 器 硬件 ; 这 一 依赖 于 平台 的 操作 由 控制 器 来 完成 ， 
这 样 ， 总 线 本 身 可 以 获得 平台 无 关 性 。 


位 于 PCI_INTERRUPT_PIN 的 只 读 配置 寄存 器 用 来 告诉 计算 机 实际 使 用 的 是 哪个 引 脚 。 
要 记得 每 个 设备 板 可 容纳 最 多 8 个 设备 ; 而 每 个 设备 使 用 单独 的 中 断 引 脚 ， 并 在 自己 的 
配置 寄存 器 中 报告 引 脚 的 使 用 情况 。 同 一 设备 板 上 的 不 同 设备 可 使 用 不 同 的 中 断 引 肚 ， 
或 者 共享 同一 个 中 断 引 脚 。 
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另 一 方面 ，PCI_INTERRUPT_LINE 寄 存 器 是 可 读 / 写 的 。 在 计算 机 的 引导 阶段 ,固件 扫 
描 其 PCI 设 备 ， 并 根据 中 断 引 脚 如 何 连接 到 它 的 PCI 档 来 设置 每 个 设备 的 寄存 器 。 这 个 
值 由 固件 分 配 , 因为 只 有 固件 知道 主板 如 何 将 不 同 的 中 断 引 脚 连接 至 处 理 器 。 但 是 ,对 
设备 驱动 程序 而 言 ， PCI_INTERRUPT_LINE 是 只 读 的 。 有 趣 的 是 , 新 近 的 Linux 内 核 在 
某 些 情况 下 无 需 借助 于 BIOS 就 可 以 分 配 中 断 线 。 


硬件 抽象 


到 此 为 止 , 我 们 通过 了 解 系统 如 何 处 理 市 场 上 各 种 各 样 的 PCI 控 制 器 , 已 经 完整 地 讨论 
了 PCI 总 线 。 本 节 只 是 提供 一 些 资料 , 以 帮助 感 兴趣 的 读者 了 解 内 核 是 如 何 将 面向 对 象 
的 布局 扩展 至 最 底层 的 。 


用 于 实现 硬件 抽象 的 机 制 , 就 是 包含 方法 的 普通 结构 。 这 是 一 种 强 有 力 的 技术 , 它 只 是 
在 普通 的 函数 调用 开销 之 上 增加 了 对 指针 取 值 这 样 一 点 最 小 的 开销 。 在 PCI 管 理 中 , 唯 
一 依赖 于 硬件 的 操作 是 读 取 和 写 人 配置 寄存 器 , 因为 PCI 世 界 中 的 任何 其 他 工作 , 都 是 
通过 直接 读 取 和 写 人 IO 及 内 存 地 址 空间 来 完成 的 ， 而 这 些 工 作 是 由 CPU 直接 控制 的 。 


为 此 ， 用 于 配置 寄存 器 访问 的 相关 结构 仅 包 含 2 个 字段 : 


struct pci_ops { 
int {(*read) (struct pci_bus *bus, unsiqmed int devfn, int where, int size, 
V32 *val); 
int {*write) (struct pci_bus *bus, unsigned int devfn, int where, int size, 
u32 val); 
}; 


该 结构 在 <linux/ipci.h> 中 定义 ,并 由 drivers/pcilpci.c 使 用 ,后 者 定义 了 实际 的 公共 函数 。 


作用 于 PCI 配 置 空间 的 这 两 个 函数 比 对 指针 取 值 要 花费 更 多 的 开销 ; 因为 代码 是 高 度 面 
向 对 象 的 , 它们 使 用 了 级 联 指 针 , 但 该 开销 对 于 执行 次 数 极 少 而 且 从 来 不 会 在 速度 要 求 
很 高 的 路 径 上 执行 的 操作 来 说 并 不 是 一 个 问题 .例如 ,pci_read_config_byte{dev, where， 
val) 的 实际 实现 扩展 为 : 


dev->bus->ops->read(bus, devfn, where, 8, val); 


系统 中 的 各 种 PCI 总 线 在 系统 引导 阶段 得 到 检测 ,这 时 ，struct pci_bus 项 被 创建 
并 与 其 功能 关联 起 来 ， 其 中 包括 ops 字段 。 


通过 “硬件 操作 ”数据 结构 实现 硬件 抽象 在 Linux 中 很 典型 。 一 个 重要 的 例子 是 struct 
alpha_machine_vector 数据 结构 。 该 结构 体 在 <asm-alph/machvec.h> 中 定义 ,并 用 
来 处 理 各 种 Alpha 计算 机 之 间 的 不 同 。 
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ISA 回顾 


ISA 总 线 在 设计 上 相当 陈旧 而 且 其 差劲 的 性 能 臭名 上 昭著, 但 是 , 它 仍然 占有 很 大 一 部 分 
的 扩展 设备 市 场 。 当 要 支持 老 主 板 而 速度 又 不 是 非常 重要 时 , ISA 比 起 PCI 要 占 些 优势 。 
ISA 这 个 老 标准 的 另外 一 个 优点 是 ， 如果 你 是 一 位 电子 爱好 者 ,你 可 以 非常 容易 地 设计 
开发 自己 的 ISA 设备 、 而 这 对 PCI 来 说 简直 是 不 可 能 的 。 


另 一 方面 , ISA 的 最 大 不 足 在 于 它 被 紧 紧 绑 定 在 PC 架构 上 ; 其 接口 总 线 具 有 80286 处 理 
器 的 所 有 限制 , 使 系统 程序 员 头 疼 不 已 。 ISA 设计 的 另外 一 个 大 问题 ( 源 自 最 初 的 ILBM 
PC) 是 缺少 地 理 寻 址 , 这 导致 了 许多 问题 , 迫使 在 添加 新 设备 时 要 经 历 神 长 的 “ 拔 下 一 
重新 跳 线 - 插入 - 测试 ”周期 。 值 得 注意 的 是 , 连 最 老 的 Apple IT 计 算 机 都 采用 了 地 理 
寻 址 方法 ， 从 而 可 以 装备 无 跳 线 的 扩展 板 卡 。 


尽管 ISA 总 线 有 如 此 大 的 缺点 , 但 仍然 被 应 用 于 若干 意 想 不 到 的 领域 。 例如 ， 用 在 几 种 
掌上 电脑 中 的 MIPS 处 理 器 的 VR41xx 系列 装备 有 ISA 兼容 的 扩展 总 线 ， 看 起 来 有 点 奇 
怪 。 这 种 意 想 不 到 的 应 用 的 背后 原因 是 某 些 基 于 ISA 的 传统 硬件 的 成 本 极其 低廉 , 例如 
基于 8390 的 以 太 网 卡 ， 这 样 ， 利 用 ISA 电气 信号 的 CPU 就 能 够 非常 容易 地 利用 这 种 精 
糕 但 便宜 的 PC 设备 。 


硬件 资源 

一 个 ISA 设备 可 配备 有 IO 端口、 内存 区 域 以 及 中 断 线 。 尽 管 x86 处 理 器 支持 64 KB 的 
IO 端口 内 存 (也 就 是 说 ,处理 器 有 16 条 地 址 线 ), 但 某 些 老式 的 PC 硬件 只 能 处 理 最 低 
的 10 条 地 址 线 。 这 把 可 用 的 地 址 空间 限制 在 1024 个 端口 ,因为 任何 只 能 处 理 低 位 地 址 
线 的 设备 ， 都 会 错误 地 将 1 KB 至 64 KB 范围 内 的 地 址 看 成 是 低地 址 。 某 些 外 设 通过 只 
把 一 个 端口 映射 到 低 和 于 字 节 而 使 用 高 地 址 线 来 选择 不 同 的 设备 寄存 器 来 绕 过 这 个 限制 。 
例如 ， 了 映射 到 0x340 端口 的 设备 ， 也 可 以 安全 地 使 用 0x740、0xB40 等 端口 。 


如 果 可 用 的 WO 端口 受到 限制 ， 内 存 访问 情况 就 更 加 精 糕 。ISA 设备 只 能 把 640 KB 和 
1 MB 之 间 以 及 15 MB 和 16 MB 之 间 的 内 存 用 于 IO 寄存 器 和 设备 控制 。640 KB 到 
1 MB 的 范围 由 PC BIOS、VGA 兼容 适配器 ， 以 及 其 他 各 种 设备 使 用 ， 新 设备 能 用 的 
空间 非常 有 限 。 另 一 方面 ，Linux 不 直接 支持 15 MB 处 的 内 存 访 问 ， 如果 想 通过 修改 内 
核 来 支持 它 现 在 已 经 得 不 偿 失 了 。 


1SA 设备 板 可 利用 的 第 三 个 资源 是 中 断 线 。 连 接 到 ISA 总 线 的 中 断 线 非 常 有 限 ， 而 且 由 
所 有 的 接口 板 卡 共享 。 这 样 , 如 果 设 备 配置 不 当 , 将 出 现 多 个 不 同 设备 使 用 同一 中 断 线 
的 结果 。 
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尽管 最 初 的 ISA 规范 不 允许 在 设备 间 共 享 中 断 , 但 大 多 数 设备 板 都 允许 ( 注 5)。 软件 级 
别 的 中 断 共 享 在 第 十 章 的 “中 断 共 享 ”一 节 中 讲述 。 


ISA 编程 


对 编程 而 言 ， 内 核 或 BIOS 都 没有 提供 任何 特定 的 帮助 来 使 访问 ISA 设备 更 加 容易 《和 
PCI 不 同 )。 我 们 能 利用 的 唯一 设施 是 WO 端口 寄存 器 以 及 IRQ 线 , 相关 论述 可 参阅 第 十 
章 的 “安装 中 断 处 理 程序 ”一 三。 


本 书 第 一 部 分 中 讲述 的 所 有 编程 技术 都 可 以 应 用 于 ISA 设备 ; 驱动 程序 可 以 探测 IO 端 
品 , 而 中 断 线 的 自动 检测 必须 利用 第 十 章 的 “自动 检测 IRQ 号 " 一 节 中 描述 的 技术 之 一 。 


辅助 函数 isa_readb 以 及 其 他 相关 函数 已 经 在 第 十 章 的 “使 用 1/O 内 存 ” 中 简要 介绍 过 
了 ， 这 里 不 再 乾 述 。 


即 插 即 用 规范 


某 些 新 的 ISA 设 备 板 遵循 特殊 的 设计 规则 ,需要 一 个 特殊 的 初始 化 序列 , 以 便 简化 附加 
接口 板 的 安装 和 配置 。 这 些 接口 板 的 设计 规范 被 称 为 PnP ( Plug and Play， 即 插 即 用 )， 
其 中 包括 一 堆 建立 和 配置 无 跳 线 ISA 设备 的 麻烦 规则 。PnP 设备 实现 了 可 重 分 配 的 IO 
区 域 ; 而 PC BIOS 负责 重新 分 配 (请 回忆 PCI 的 相关 内 容 )。 


简 而 言 之 , PnP 的 目标 就 是 获得 类 似 PCI 设 备 那样 的 灵活 性 ,而 无 需 修 改 底层 的 电气 接 
日 ( 即 ISA 总 线 )。 为 此 ， 该 规范 定义 了 一 组 设备 无 关 的 配置 寄存 器 ， 以 及 地 理 寻 址 接 
口 板 的 方法 一 一 虽然 物理 总 线 并 不 支持 各 板 独 立 的 (地 理 ) 连 线 ， 而 每 个 ISA 信号 线 
都 会 连接 到 每 个 插 槽 。 


地 理 寻 址 通过 为 计算 机 中 的 每 个 PnP 外 设 分 配 一 个 小 整数 来 工作 ， 称 为 CSN (Card 
Select Number， 卡 选择 号 ) 。 每 个 PnP 设备 配备 有 一 个 唯一 的 序列 标识 号 ， 有 64 位 宽 ， 
并 且 被 硬 编码 到 外 设 板 中 。CSN 分 配 利用 该 唯一 序列 号 来 识别 PnP 设 备 。 但 是 , 只 能 在 
引导 阶段 对 CSN 进行 安全 的 分 配 ， 而 这 融 槛 BIOS 能 够 识别 PnP 设备 。 出 于 这 个 原因 ， 
老 的 计算 机 需要 用 户 获 得 并 插入 一 张 特殊 的 配置 磁盘 ,即使 设备 具有 PnP 功 能 也 不 例外 。 





注 5: 和 中 断 共享 相关 的 问题 可 通过 电子 工程 来 解释 : 如 果 设 备 驱动 程序 驱动 信号 线 为 不 活动 
状态 (通过 发 出 低 阻 抗 电 平 信号 ), 则 中 断 就 无 法 共享 。 另 一 方面 如 果 设 备 使 用 拉 升 电 
阻 导 致 不 活动 的 逻辑 电 平 ， 则 共享 就 有 可 能 。 这 已 经 成 为 目前 的 标准 。 但 是 ,仍然 存在 
丢失 中 断 事件 的 潜在 风险 ， 因 为 ISA 中 断 是 边 嫌 触发 的 而 不 是 电 平 触发 的 。 边 坎 触 发 
中 断 在 硬件 上 更 加 容易 实现 ， 但 对 共享 来 说 并 不 安全 。 
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遵循 PnP 规范 的 接口 板 在 硬件 层次 上 比较 复杂 。 与 PCI 板 相 比 ， 它 们 更 为 精细 、 侧 且 要 
求 更 为 复杂 的 软件 。 安装 这 些 设 备 时 一 样 会 遇 到 麻烦 、 即 使 安装 很 顺利 , 也 仍然 要 面 对 
性 能 限制 以 及 有 限 的 ISA 总 线 1/O 空间 等 问题 。 因 此 ， 只 要 可 能 ， 应 该 尽量 安装 PCI 设 
备 ， 体 验 新 技术 。 


如 果 读 者 对 PnP 配置 软件 感 兴趣 ， 可 浏览 driversinet/3c509.c， 这 个 驱动 程序 的 探测 函 
数 处 理 PnP 设备 。2.6 内 核 在 PnP 设备 的 支持 方面 做 了 很 多 工作 、 因 此 ， 和 前 一 次 内 核 
发 布 相 比 ， 许 多 不 灵活 的 接口 已 经 被 清理 掉 了 。 


PC/104 和 PC/104+ 


在 工业 界 ， 当 前 有 两 种 非常 流行 的 总 线 架构 : PC/104 和 PC/104+。 它 们 都 是 PC 类 单 板 
计算 机 的 标准 。 


这 两 个 标准 都 规定 了 印刷 电路 板 的 外 形 ， 以 及 板 间 互 连 的 电气 /机 械 规范 。 这 些 总 线 的 
实际 好 处 在 于 ,它们 可 以 使 用 在 设备 一 面 的 插头 -插座 类 型 的 连接 器 把 多 个 电路 板 垂直 
堆 登 起 来 。 


这 两 个 总 线 的 电子 和 风 辑 布局 分 别 和 ISA {PC/104) 及 PCI (PC/104+) 一 样 , 因此 , 软 
件 不 会 注意 到 它们 和 通常 桌面 总 线 之 间 的 不 同 。 


其 他 的 PC 总 线 


PCI 和 ISA 是 PC 领域 最 常用 的 外 设 接口 , 但 它们 并 不 是 仅 有 的 PC 总线 。 这 里 给 出 了 能 
在 PC 市 场 上 找到 的 其 他 一 些 总 线 。 


MCA 


MCA (Micro Channel Architecture， 微 通道 结构 ) 是 在 PS/2 计算 机 和 某 些 笔记 本 电脑 
中 使 用 的 BM 标准 .在 硬件 层次 上 , 微 通道 的 功能 比 ISA 更 多 . 它 支 持 多 主 (multimaster) 
DMA.、 32 位 地 址 和 数据 线 、 共享 中 断 线 和 用 来 访问 板 载 配置 寄存 器 的 地 理 寻 址 等 等 。 这 
种 寄存 器 被 称 为 POS (可 编程 选项 选择 ,Programmable Option Select), 但 它们 不 具有 
PCI 寄存 器 的 所 有 功能 。Linux 对 微 通道 的 支持 包括 导出 给 模块 使 用 的 函数 。 


设备 驱动 程序 可 以 读 取 整 数值 MCA_bus， 以 便 判 断 是 否 运行 在 微 通道 计算 机 上 。 如 果 
该 符号 是 一 个 预 处 理 宏 ， 那 么 MCA_bus__is_a_macro 宏 也 会 被 定义 。 如 果 
MCA_bus__is_a_macro 未 被 定义 , 则 MCA_bus 是 一 个 导出 到 模块 化 代码 的 整 型 变量 。 
MCA_bus 和 MCA_bus、_is_a_macro 在 <asm/processor.h> 中 定义 。 


320 第 十 二 章 











EISA 


扩展 ISA (EISA) 总 线 是 对 ISA 总 线 的 32 扩 展 ， 同 时 具有 兼容 的 接口 连接 器 ; ISA 设 
备 板 可 以 插入 ISA 连接 器 。 附 加 的 线路 在 ISA 接点 之 下 走 线 。 


类 似 PCI 和 MCA，, EISA 总 线 也 是 为 无 跳 线 设备 而 设计 的 , 并 具有 和 MCA 一 样 的 特点 : 
32 位 地 址 和 数据 线 、 多 主 DMA 和 共享 中 断 线 。EISA 设备 由 软件 配置 , 但 它们 不 需要 操 
作 系 统 的 任何 特殊 支持 。Linux 内 核 中 已 经 有 一 些 EISA 驱动 程序 ， 包 括 以 太 网 设备 和 
SCSI 控制 嚣 。 


EISA 驱动 程序 检查 EISA_bus 的 值 来 判断 主机 是 否 装备 有 EISA 总 线 。 和 MCA_bus 类 
似 ,， EISA_bus 可 以 是 宏 ， 也 可 以 是 变量 , 取决 于 EISA_bus _is_a_macro 是 否 被 定 
义 。 这 两 个 符号 均 定义 在 <asmiprocessor.h> 中 。 


对 于 有 sysfs 和 资源 管理 功能 的 设备 内 核 提供 了 完全 的 EISA 支持 ,位 于 drivers/eisa 目 
了 录 。 


VLB 


另外 一 个 对 ISA 的 扩展 是 VLB (VESA Local Bus，VESA 局 部 总 线 ) 接口 总 线 ， 它 通 
过 添加 第 三 个 纵向 插 槽 对 ISA 连 接 器 进行 了 扩展 。 设 备 可 以 插入 这 个 额外 的 连接 器 (不 
需要 插 人 另外 两 个 相关 的 ISA 连 接 器 插 槽 ), 因为 VLB 插 权 复制 了 ISA 连 接 器 中 的 所 有 
重要 信号 。 这 种 不 使 用 ISA 槽 的 “独立 ”的 VLB 外 设 很 少见 , 因为 大 多 数 设备 需要 接触 
到 计算 机 的 背 板 才能 连接 到 外 部 连接 器 上 。 


与 EISA、MCA 和 PCI 总 线 相 比 , VESA 总 线 的 功能 更 加 有 限 , 因此 正在 从 市 场 上 消失 。 
内 核 中 不 存在 对 VLB 的 任何 特殊 支持 。 但 是 ，Linux 2.0 中 的 Lance 以 太 网 驱动 程序 和 
IDE 磁盘 驱动 程序 可 处 理 这 些 设备 的 VLB 版 本 。 


SBus 


在 现今 大 部 分 计算 机 装备 PCI 或 ISA 接口 总 线 的 同时 ， 大 部 分 稍 老 的 SPARC 工作 站 使 
用 SBus 连接 它们 的 外 设 。 


尽管 SBus 存在 很 长 一 段 时 间 了 , 但 它 具 有 相当 高 级 的 设计 。 尽管 只 有 SPARC 计算 机 使 
用 该 总 线 , 但 它 的 初 宴 却 是 处 理 器 无 关 的 , 并 针对 IO 外 设 板 进行 了 优化 。 换 句 话 说 , 我 
们 可 以 将 额外 的 RAM 插入 SBus 插 槽 (RAM 扩展 板 已 经 从 ISA 领域 消失 ， 而 PCI 根本 
不 支持 它们 )。 这 种 优化 可 简化 硬件 设备 和 系统 软件 的 设计 ， 其 代价 是 主板 更 加 复杂 一 
些 。 
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SBus 总 线 的 这 种 IO 处 理 方法 导致 外 设 使 用 “虚拟 ”地 址 来 传输 数据 , 以 绕 过 分 配 连续 
DMA 缓冲 区 的 需求 。 主 板 负 责 将 虚拟 地 址 解码 并 映射 到 物理 地 址 。 这 要 求 在 总 线 上 附 
加 一 个 MMU (内 存 管理 单元 ); 负责 该 任务 的 芯片 被 称 为 JOMMU。 与 使 用 物理 地 址 的 
接口 总 线 相 比 , 这 种 设计 似乎 有 些 复杂 , 但 因为 SPARC 处 理 器 始终 将 MMU 核 心 从 CPU 
核心 中 分 离 (要 么 是 在 物理 上 , 要 么 至 少 是 在 概念 上 ), 从 而 使 之 大 大 简化 。 实际 上 , 这 
种 设计 决策 也 被 其 他 巧妙 的 处 理 器 设计 共享 , 从 而 获得 整体 上 的 好 处 。 这 种 总 线 的 另外 
一 个 好 处 是 , 设备 板 使 用 大 量 的 地 理 寻 址 , 因此 不 需要 在 每 一 个 外 设 中 实现 地 址 解码 器 
或 者 处 理 地 址 冲突 。 


SBus 外 设 在 它们 的 PROM 中 使 用 Forth 语言 来 初始 化 它们 自身 。 选 择 Forth 的 原因 是 ， 
其 解释 器 是 轻 量 级 的 , 因此 可 以 在 任何 计算 机 系统 的 固件 中 实现 。 此 外 , SBus 规 范 描述 
了 引导 过 程 、 因 此 ， 兼容 的 1O 设备 能 很 容易 地 融合 到 系统 中 ,并且 在 系统 引导 时 被 识 
别 出 来 。 对 支持 多 平台 的 设备 来 说 ,， 这 一 步 意 义 非凡 ; 这 完全 不 同 于 惯常 的 以 PC 为 中 
心 的 ISA 领域 。 但 是 ， 由 于 许多 商业 原因 ， 这 个 总 线 并 未 取得 成 功 。 


尽管 当前 内 核 版 本 对 SBus 设备 提供 了 相当 完善 的 支持 ,但 该 总 线 已 经 很 少 被 用 到 ， 
此 不 值得 在 这 里 详 述 。 感 兴趣 的 读者 可 以 查看 arch/sparcikernel! 和 arch/sparcimm 中 的 
源 文件 。 


NuBus 


另外 一 个 有 趣 但 几乎 被 遗忘 的 接口 总 线 是 NuBus。 你 可 以 在 老式 的 Mac 计算 机 (使 用 
M68k 系列 CPU ) 中 找到 它 。 


所 有 的 总 线 都 是 内 存 映 射 的 (类 似 M68k 中 的 所 有 东西 ), 而 且 设备 只 能 被 地 理 寻 址 。 这 
是 Apple 的 优点 和 风格 , 因为 更 老式 的 Apple 工 都 已 经 具备 类 似 的 总 线 布局 。 其 缺陷 在 
于 , 几乎 不 太 可 能 找到 任何 有 关 NuBus 的 文档 , 这 归 和 从 于 Apple 在 Mac 计 算 机 上 一 贯 遵 
循 的 封闭 一 切 的 策略 (不 同 于 先前 的 Apple 了 1 系统 ,其 源 代码 和 图 表 可 以 花 非 常 低 的 代 
价 获得 )。 


文件 driversinubusinubus.c 包含 了 我 们 就 该 总 线 所 知道 的 一 切 ， 读 起 来 也 相当 有 趣 ; 从 
中 可 以 看 出 ， 开 发 人 员 不 得 不 做 了 多 少 艰 难 的 逆向 工程 。 


外 部 总 线 


接口 总 线 领域 最 近 出 现 了 一 个 新 的 家 族 : 外 部 总 线 。 这 包括 USB、FireWire 和 IEEE1284 
(基于 并 口 的 外 部 总 线 )。 这 些 接口 在 菜 种 程度 上 和 老式 的 、 非 外 部 的 技术 (例如 
PCMCIA/CardBus ) ， 黄 至 SCSI 类 似 。 
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从 概念 上 讲 ， 这 些 总 线 既 不 是 功能 完整 的 接口 总 线 ( 比 如 PCI)， 也 不 是 哑 的 通信 通道 
(比如 串口 )。 很 难 对 利用 其 功能 的 软件 进行 分 类 , 通常 可 划分 为 两 个 级 别 : 硬件 控制 器 
的 驱动 程序 (比如 针对 PCI SCSI 适 配器 的 驱动 程序 ， 或 者 在 “PCI 接口 ”一 节 中 描述 
过 的 PCI 控 制 器 ) 以 及 针对 特定 “客户 ”设备 的 驱动 程序 (比如 处 理 通 用 SCSI 磁 盘 的 
sd.c 和 处 理 插 和 总线 的 板 卡 的 PCI 驱动 程序 )。 


快速 参考 
本 节 总 结 本 章 中 介绍 过 的 符号 : 


#include <linux/pci.h> 

这 个 头 文件 包含 PCI 寄存 器 的 符号 名 称 ， 以 及 若干 厂商 和 设备 ID 值 。 
struct pci_dev; 

代表 内 核 中 PCI 设备 的 结构 体 。 
struct pci_driver; 

代表 PCI 驱动 程序 的 结构 体 。 所 有 的 PCI 驱动 程序 必须 定义 该 结构 体 。 
struct pci_device_ id; 


描述 该 驱动 程序 所 支持 的 PCI 设备 类 型 的 结构 体 。 


int pci_register_driver(struct pci_driver *drv); 
int pci_module_init(struct pci_driver *drv); 
void pci_unregister_driver (struct pci_driver *drv); 


从 内 核 注 册 或 者 注销 PCI 驱 动 程序 的 函数 。 


struct pci_dev *pci_find_ device (unsigned int vendor, unsigned int device, 
struct pci_dev *from); 

struct pci_dev *pci_find device_reverse(unsigned int vendor, unsigned int 
device, const struct pci_dev *from); 
struct pci_dev *pci_find_subsys (unsigned int vendor, unsigned int device, 
unsigned int ss_vendor, nsigned int ss_Gevice, const struct pci_dev *from); 
struct pci_dev *pci_fing class(unsigned int class, struct pci_dev *from}); 
在 设备 列表 中 查找 具有 特定 签名 或 者 属于 某 一 特定 类 的 设备 的 函数 。 如 果 没 有 找 
到 , 返回 值 为 NULL。from 被 用 来 继续 查找 ; 在 第 一 次 调用 函数 时 它 必须 为 NULL ， 
如 果 想 要 查找 更 多 的 设备 , 它 必须 指向 前 一 个 找到 的 设备 。 这些 函 数 不 建 议 使 用 ， 

应 该 用 pci_get_ 系列 函数 代替 。 
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struct pci_dev *pci_get_device(unsigned int vendor, unsigned int device, 
struct pci_dev *from); 

struct pci_dev *pci_get_subsys (unsigned int vendor, unsiqned int device, 

unsigned int ss_vendor, unsigned int ss_device, struct pci_dev *from); 

struct pci_dev *pci get_ slotl(struct pci_ bus *bus, unsigned int devfn); 

在 设备 列表 中 查找 具有 特定 签名 或 者 属于 某 一 特定 类 的 设备 的 函数 。 如 果 没 有 找 

到 , 返回 值 为 NULL。from 被 用 来 继续 查找 ; 在 第 一 次 调用 函数 时 它 必 须 为 NULL， 

如 果 想 要 查找 更 多 的 设备 , 它 必 须 指向 前 一 个 找到 的 设备 。 返回 的 结构 体 的 引用 计 
数 被 增加 ， 在 使 用 完 该 结构 体 之 后 ， 必 须 调用 pci_dev_put 函数 。 


int pci_read config bytel(struct pci_dev *dev, int where, u8 *val); 
int pci_read config word(struct pci_dev *dev, int where, ul6 *val); 
int pci_read config dGword{struct pci_dev *dev, int where, u32 *val); 
int pci_write_config byte (struct pci_dev *dev, int where, u8 *val); 
int pci_write_config word (Struct pci_dev *dev, int where, ul6 *val); 
int pci write config_dword (struct pci_dev *dev, int where, u32 *val); 
读 取 或 者 写 人 人 PCI 配置 寄存 器 的 函数 。 尽管 Linux 内 核 处 理 了 字 节 序 问题 ,但 从 单 
字 节 装配 多 字 节 值 时 ， 程 序 员 必须 小 心 处 理 字 节 序 问题 。PCI 总 线 是 小 头 的 。 
int pci_enable_device(struct pci_dev *dev); 
激活 一 个 PCI 设备 。 
unsigned long pci_resource_start (struct pci_dev *dev, int bar); 
unsigned long pci_resource_end(struct pci_dev *dev, int bar); 


unsigned long pci_resource_flags(struct pci dev *dev, int bar); 


处 理 PCI 设备 资源 的 函数 。 
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通用 串 行 总 线 (USB ) 是 主机 和 外 围 设备 之 间 的 一 种 连接 。USB 最 初 是 为 了 替代 许多 不 
同 的 低速 总 线 (包括 并 行 、 串 行 和 键盘 连接 ) 而 设计 的 ， 它 以 单一 类 型 的 总 线 连 接 各 种 
不 同类 型 的 设备 ( 注 1)。USB 的 发 展 已 经 超越 了 这 些 低速 的 连接 方式 , 它 现在 可 以 支持 
几乎 所 有 可 以 连接 到 PC 上 的 设备 。 最 新 的 USB 规范 修订 增加 了 理论 上 高 达 480 Mbps 
的 高 速 连 接 。 


从 拓扑 上 来 看 , 一 个 USB 子 系统 并 不 是 以 总 线 的 方式 来 布置 的 ; 它 是 一 棵 由 几 个 点 对 点 
的 连接 构建 而 成 的 树 。 这 些 连 接 是 连接 设备 和 集线器 (hub ) 的 四 线 电缆 (地 线 、 电 源 
线 和 两 根 信 号 线 )， 这 和 以 太 网 双 绞 线 类 似 。USB 主 控制 器 (host controller) 负责 询问 
每 一 个 USB 设备 是 否 有 数据 需要 发 送 。 因 为 这 种 拓扑 布局 的 原因 ， 一 个 USB 设备 在 没 
有 主 控制 器 要 求 的 情况 下 是 不 能 发 送 数 据 的 .这 种 配置 便于 搭建 一 个 非常 简易 的 即 插 即 
用 类 型 的 系统 ， 拜 此， 设备 可 以 由 主机 自动 地 配置 。 


USB 总 线 在 技术 层面 上 是 非常 简单 的 , 因为 它 是 一 个 单 主 方式 的 实现 , 在 此 方式 下 , 主 
机 轮 询 各 种 不 同 的 外 围 设备 。 尽管 存在 这 种 内 在 的 局 限 性 , USB 总 线 有 一 些 吸引 人 的 特 
性 , 例如 设备 具有 要 求 一 个 固定 的 数据 传输 带宽 的 能 力 , 以 可 靠 地 支持 视频 和 音频 IO。 
USB 另 一 个 重要 的 特性 是 它 只 担当 设备 和 主 控制 器 之 间 通 信 通 道 的 角色 ,对 它 所 发 送 的 
数据 没有 任何 特殊 的 内 容 和 结构 上 的 要 求 ( 注 2)。 


USB 协 议 规范 定义 了 一 套 任何 特定 类 型 的 设备 都 可 以 遵循 的 标准 。 如 果 一 个 设备 遵循 访 
标准 ， 就 不 需要 一 个 特殊 的 驱动 程序 。 这 些 不 同 的 特定 类 型 称 为 类 (class)， 包 括 存 储 





注 1: 本 章 部 分 内 容 基 于 Linux 内 核 USB 代码 的 内 核 文档 ,这 些 文档 由 内 核 的 USB 开发 者 编 
写 ， 并 且 按 照 GPL 条 款 发 布 。 

注 2: 实际 上 ,还 是 存在 一 些 结构 ， 但 通常 被 降低 为 满足 菜 几 个 预定 义 类 之 一 的 通信 需求 : 例 
如 ， 键 盘 不 需要 分 配 带 宽 ， 而 某 些 摄像 头 需要 。 
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设备 、 键 盘 、 鼠标、 游戏 杆 、 网 络 设备 和 调制 解 调 器 。 对 于 不 符合 这 些 类 的 其 他 类 型 的 
设备 , 需要 针对 特定 的 设备 编写 一 个 特定 于 供 货 商 的 驱动 程序 。 视频 设备 和 USB 到 串口 
转换 设备 是 一 个 很 好 的 例子 , 对 于 它们 没有 已 定义 的 标准 , 来 自 不 同 制造 商 的 每 一 种 不 
同 的 设备 都 需要 对 应 的 驱动 程序 。 


这 些 特性 ， 加 上 设计 上 与 生 俱 来 的 热 插 拔 能 力 ， 使 得 USB 成 为 一 个 便利 和 低 成 本 的 机 
制 ， 它 可 以 连接 多 个 设备 到 计算 机 ， 而 不 需要 关闭 系统 、 打 开机 箱 、 拧 螺丝 钉 和 插 拔 电 
线 。 


Linux 内 核 支持 两 种 主要 类 型 的 USB 驱动 程序 : 宿主 (host) 系统 上 的 驱动 程序 和 设备 
(device) 上 的 驱动 程序 。 从 宿主 的 观点 来 看 一 个 普通 的 USB 宿 主 是 一 个 桌面 计算 机 )， 
宿主 系统 的 USB 驱动 程序 控制 插入 其 中 的 USB 设备 , 而 USB 设备 的 驱动 程序 控制 该 设 
备 如 何 作为 一 个 USB 设备 和 主机 通信 。 由 于 术语 “USB 设备 驱动 程序 ” (USB device 
drivers) 非常 易于 混淆 ，USB 开发 者 创建 了 术语 “USB 器 件 驱动 程序 ”(USB gadget 
drivers ) 来 描述 控制 连接 到 计算 机 (不 要 忘 了 Linux 还 运行 于 很 多 小 型 嵌入 式 设备 上 ) 
的 USB 设备 的 驱动 程序 。 本 章 将 详细 介绍 运行 于 桌面 计算 机 上 的 USB 系统 是 如 何 运作 
的 。USB 器 件 驱 动 程序 此 刻 还 未 列 入 本 书 的 内 容 范 围 。 


如 图 13-1 所 示 , USB 驱动 程序 存在 于 不 同 的 内 核子 系统 ( 块 设备 、 网 络 设备 、 字符 设备 
等 等 ) 和 USB 硬件 控制 器 之 中 。USB 核心 为 USB 驱动 程序 提供 了 一 个 用 于 访问 和 控制 
USB 硬件 的 接口 ， 而 不 必 考 虑 系统 当前 存在 的 各 种 不 同类 型 的 USB 硬件 控制 器 。 


块 网 络 | 字符 
设备 层 | 设备 层 | 设备 层 





图 13-1: USB 驱动 程序 概观 
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USB 设备 基础 


USB 设备 是 一 个 非常 复杂 的 东西 , 官方 USB 文 档 (可 由 http://www.usb.org 获取 ) 中 有 
详细 的 描述 。 幸 运 的 是 ，Linux 内 核 提供 了 一 个 称 为 USB 核心 (USB core) 的 子 系统 来 
处 理 大 部 分 的 复杂 性 。 本 章 描述 驱动 程序 和 USB 核心 之 间 的 接口 。 图 13-2 展示 了 USB 
设备 的 构成 ， 包 括 配置 、 接 口 和 端点 ,以 及 USB 驱动 程序 如 何 绑 定 到 USB 接口 上 ， 而 
不 是 整个 USB 设备 。 








13-2: USB 设备 概观 


端点 


USB 通信 最 基本 的 形式 是 通过 一 个 名 为 端点 (endpoint) 的 东西 。 USB 端点 只 能 往 一 个 
方向 传送 数据 , 从 主机 到 设备 ( 称 为 输出 端点 ) 或 者 从 设备 到 主机 ( 称 为 输入 端点 )。 端 
点 可 以 看 作 是 单 向 的 管道 。 


USB 端点 有 四 种 不 同 的 类 型 ， 分 别 具 有 不 同 的 传送 数据 的 方式 : 


挫 制 
控制 端点 用 来 控制 对 USB 设备 不 同 部 分 的 访问 。 它 们 通常 用 于 配置 设备 、 获 取 设 
备 信息 、 发 送 命令 到 设备 , 或 者 获取 设备 的 状态 报告 。 这 些 端点 一 般 体 积 较 小 。 每 
个 USB 设备 都 有 一 个 名 为 “端点 0” 的 控制 端点 ，USB 核心 使 用 该 端点 在 插入 时 
进行 设备 的 配置 。USB 协议 保证 这 些 传输 始终 有 足够 的 保留 带宽 以 传送 数据 到 设 
备 。 
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中 断 
每 当 USB 宿主 要 求 设备 传输 数据 时 ,中 断 端 点 就 以 一 个 固定 的 速率 来 传送 少量 的 
数据 。 这 些 端 点 是 USB 键盘 和 鼠标 所 使 用 的 主要 传输 方式 。 它 们 通常 还 用 于 发 送 
数据 到 USB 设备 以 控制 设备 , 不 过 一 般 不 用 来 传输 大 量 的 数据 。USB 协议 保证 这 
些 传输 始终 有 足够 的 保留 带宽 以 传送 数据 。 


拢 量 
批量 (bulk ) 端点 传输 大 批量 的 数据 。 这 些 端点 通常 比 中 断 端 点 大 得 多 (它们 可 以 
一 次 持 有 更 多 的 字符 )。 它 们 常见 于 需要 确保 没有 数据 丢失 的 传输 的 设备 。USB 协 
议 不 保证 这 些 传输 始终 可 以 在 特定 的 时 间 内 完成 。 如 果 总 线 上 的 空间 不 足以 发 送 整 
个 批量 包 , 它 将 被 分 割 为 多 个 包 进行 传输 。 这些 端 点 通常 出 现在 打印 机 、 存储 设备 
和 网 络 设备 上 。 


等 肝 
等 时 (isochronous ) 端点 同样 可 以 传送 大 批量 的 数据 , 但 数据 是 否 到 达 是 没有 保证 
的 。 这 些 端 点 用 于 可 以 应 付 数据 丢失 情况 的 设备 , 这 类 设备 更 注重 于 保持 一 个 恒定 
的 数据 流 。 实 时 的 数据 收集 ( 例如 音频 和 视频 设备 ) 几 乎 毫 无 例外 都 使 用 这 类 端点 。 


控制 和 批量 端点 用 于 异步 的 数据 传输 , 只 要 驱动 程序 决定 使 用 它们 。 中断 和 等 时 端点 是 
周期 性 的 。 也 就 是 说 , 这些 端点 被 设置 为 在 固定 的 时 段 连续 地 传输 数据 ,基于 此 ,USB 
核心 为 它们 保留 了 相应 的 带宽 。 


内 核 中 使 用 struct usb_host_endpoint 结构 体 来 描述 USB 端点 。 该 结构 体 在 另 一 个 
名 为 struct usb_endpoint_descriptor 的 结构 体 中 包含 了 真正 的 端点 信息 。 后 一 个 
结构 体 包 含 了 所 有 的 USB 特 定 的 数据 , 这 些 数据 的 格式 是 由 设备 自己 定义 的 。 该 结构 体 
中 驱动 程序 需要 关心 的 字段 有 : 


bEndpointAddress 
这 是 特定 端点 的 USB 地 址 。 这 个 8 位 的 值 中 还 包含 了 端点 的 方向 。 该 字段 可 以 结 
合 位 掩 码 USB_DIR_OUT 和 USB_DIR_IN 来 使 用 , 以 确定 该 端点 的 数据 是 传 向 设 
备 还 是 主机 。 

bmaAttributes 
这 是 端点 的 类 型 。 该 值 可 以 结合 位 掩 码 USB_ENDPOINT_XFERTYPE_MASK 来 使 
用 ， 以 确定 此 端点 的 类 型 是 USB_ENDPOINT_XFER_ISOC、USB_ENDPOINT_ 
XFER_BULK 还 是 USB_ENDPOINT_XFER_INT。 这些 宏 分别 表 示 等 时 、 批量 和 中 
断 端点 。 


wMaxPacketSize 


这 是 该 端点 一 次 可 以 处 理 的 最 大 字 节 数 。 注 意 , 驱动 程序 可 以 发 送 数 量 大 于 此 值 的 
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数据 到 端点 , 但 是 在 实际 传输 到 设备 的 时 候 , 数据 将 被 分 割 为 wsMaxPacketSsize 
大 小 的 块 。 对 于 高 速 设备 , 通过 使 用 高 位 中 一 些 额 外 的 位 , 该 字段 可 以 用 来 支持 端 
点 的 高 带宽 模式 。 请 参考 USB 规范 以 了 解 具体 实现 的 详情 。 

bInterval 
如 果 端 点 是 中 断 类 型 ， 该 值 是 端点 的 间隔 设置 一 一 也 就 是 说 , 端点 的 中 断 请 求 间 
隔 时 间 。 该 值 以 毫秒 为 单位 。 


该 结构 体 的 字段 并 没有 采用 “传统 的 ”Linux 内 核 命名 方案 。 这 是 因为 这 些 字段 直接 对 
应 于 USB 规 范 中 的 字段 名 字 。USB 内 核 程 序 员 认 为 使 用 规范 指定 的 名 字 比 使 用 Linux 程 
序 员 熟 悉 的 变量 命名 方式 更 加 重要 ， 因 为 这 样 便于 规范 的 阅读 。 


接口 


USB 端点 被 捆绑 为 接口 。USB 接口 只 处 理 一 种 USB 逻辑 连接 ， 例 如 鼠标 、 键 盘 或 者 音 
频 流 。 一 些 USB 设备 具有 多 个 接口 ,例如 USB 扬声器 可 以 包括 两 个 接口 : 一 个 USB 键 
盘 用 于 按键 和 一 个 USB 音频 流 。 因 为 一 个 USB 接口 代表 了 一 个 基本 功能 , 而 每 个 USB 
驱动 程序 控制 一 个 接口 ， 因 此 ， 以 扬声器 为 例 ，Linux 需要 两 个 不 同 的 驱动 程序 来 处 理 
-个 硬件 设备 。 


USB 接 口 可 以 有 其 他 的 设置 , 这 些 是 和 接口 的 参数 不 同 的 选择 。 接口 的 最 初 状态 是 在 第 
一 个 设置 ， 编 号 为 0。 其 他 的 设置 可 以 用 来 以 不 同 的 方式 控制 端点 ， 例 如 为 设备 保留 大 
小 不 同 的 USB 带宽 。 每 个 带 有 等 时 端点 的 设备 对 同一 个 接口 使 用 不 同 的 设置 。 


内 核 使 用 struct usb_interface 结 构 体 来 描述 USB 接口。USB 核心 把 该 结构 体 传递 
给 USB 驱动 程序 ， 之 后 由 USB 驱动 程序 来 负责 控制 该 结构 体 。 该 结构 体 中 的 重要 字段 
有 : 


struct usb host_interface *altsetting 


一 个 接口 结构 体 数组 ， 包 含 了 所 有 可 能 用 于 该 接口 的 可 选 设置 。 每 个 struct 
usb_host_interface 结 构 体 包含 一 套 由 上 述 struct usb_host_endpoint 结 构 体 


定义 的 端点 配置 。 注 意 ， 这 些 接口 结构 体 没 有 特定 的 次 序 。 
unsigned num altsetting 


altsetting 指针 所 指 的 可 选 设置 的 数量 。 


struct usb, host_interface *cur_altsetting 


指向 altsetting 数组 内 部 的 指针 ， 表 示 该 接口 的 当前 活动 设置 。 
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int minor 
如 果 捆 绑 到 该 接口 的 USB 驱动 程序 使 用 USB 主 设备 号 , 这 个 变量 包含 USB 核 心 分 
配给 该 接 昌 的 次 设备 号 。 这 仅 在 一 全 成 功 的 usb_register_dev 调用 之 后 才 有 
效 {在 本 章 稍 后 描述 ) 。 


struct usb_interface 结 构 体 中 还 有 其 他 的 字段 ,不 过 USB 驱 动 程序 不 需要 考虑 它们 。 


配置 


USB 接口 本 身 被 抽 绑 为 配置 。 一 个 USB 设备 可 以 有 多 个 配置 ， 而 且 可 以 在 配置 之 间 切 
换 以 改变 设备 的 状态 。 例如, 一 些 允 许 下 载 固件 到 其 上 的 设备 包含 多 个 配置 以 完成 这 个 
工作 ， 而 一 个 时 刻 只 能 激活 一 个 配置 。Linux 对 多 个 配置 的 USB 设备 处 理 得 不 是 很 好 ， 
不 过 ， 幸 好 这 种 情况 很 少 发 生 。 


Linux 使 用 stzuct usb_host_config 结构 体 来 描述 USB 配置 ， 使 用 struct 
usb_device 结 构 体 来 描述 整个 USB 设备 。USB 设备 驱动 程序 通常 不 需要 读 取 或 者 写 人 
这 些 结构 体 中 的 任何 值 , 因此 这 里 就 不 详 述 它 们 了 .。 想 要 深入 探究 的 读者 可 以 在 内 核 源 
代码 树 的 include/linuxiusb.h 文件 中 找到 对 它们 的 描述 。 


USB 设 备 驱 动 程序 通常 需要 把 一 个 给 定 的 struct usb_interface 结 构 体 的 数据 转换 为 
一 个 struct usb_device 结构 体 ，USB 核心 在 很 多 函数 调用 中 都 需要 该 结构 体 。 
interface_to_usbdev 就 是 用 于 该 转换 功能 的 函数 。 


可 以 期 待 的 是 ， 当 前 需要 struct usb_device 结 构 体 的 所 有 USB 调用 将 来 会 变 为 使 用 
一 个 struct usb_interface 参 数 ， 而且 驱 动 程序 不 再 需要 去 做 转换 的 工作 。 


概 言 之 , USB 设备 是 非常 复杂 的 , 它 由 许多 不 同 的 逻辑 单元 组 成 。 这 些 逻 辑 单 元 之 间 的 
关系 可 以 简单 地 描述 如 下 : 

。 ”设备 通常 具有 一 个 或 者 更 多 的 配置 

。 ”配置 经 常 具 有 一 个 或 者 更 多 的 接口 

。 ”接口 通常 具有 一 个 或 者 更 多 的 设置 

。 ”接口 没有 或 者 具有 一 个 以 上 的 端点 


USB 和 Sysfs 
由 于 单个 USB 物理 设备 的 复杂 性 , 在 sysfs 中 表示 该 设备 也 相当 复杂 。 无 论 是 物理 USB 
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设备 (用 struct usb_device 表 示 ) 还 是 单独 的 USB 接 口 ( 用 struct usb_interface 
表示 )， 在 sysfs 中 均 表 示 为 单独 的 设备 (这 是 因为 这 些 结构 体 都 包含 一 个 struct 
device 结 构 体 )。 以 仅 包含 一 个 USB 接口 的 简易 USB 鼠标 为 例 ， 下 面 是 该 设备 的 sysfs 
目录 树 : 


/sys/devices/pci0000:00/0000:00:09.0/usb2/2-1 
|-- 2-1:1.0 

| 1-- balternateSetting 

| |-- bInterfaceClass 

| |-- bInterfaceNumber 

| |-- bInterfaceProtocol 
| 1-- bInterfaceSubClass 
| |-- bNumEndpoints 

| |-- detach_state 

| |-- iInterface 

| “-- power 

| “-- state 

|-- bconfigurationValue 
|-- bDeviceClass 

| -- bDeviceProtocol 

| -- bDeviceSubClass 

| -- bMaxPower 

1-- bNumConfigurations 

1-- bNumInterfaces 

|-- bcdDevice 

1 -- bmattributes 

|-- detach_state 

[|-- devnum 

|-- idProduct 

1-- idvendor 

|-- maxchild 

|-- power 

| “-- state 

|-- speed 

`-- version 


struct usb_device 表示 为 目录 树 中 的 : 
/sys/devices/pci0000:00/0000:00:09.0/usb2/2-1 

而 鼠标 的 USB 接口 (USB 鼠标 驱动 程序 所 绑 定 的 接口 ) 位 于 如 下 目录 : 
/sysy/devices/pPci0000:00/0000:00:09.0/usb2/12-172-1:1.0 

我 们 将 描述 内 核 如 何 分 类 USB 设备 ， 以 帮助 理解 上 面 这 些 长 长 的 设备 路 径 名 的 含义 。 


第 一 个 USB 设备 是 一 个 根 集 线 器 (root hub)。 这 是 一 个 USB 控制 器 ,通常 包含 在 一 个 
PCI 设 备 中 。 之 所 以 这 样 命名 该 控制 器 ， 是 因为 它 控 制 着 连接 到 其 上 的 整个 USB 总 线 。 
该 控制 器 是 连接 PCI 总 线 和 USB 总 线 的 桥 ， 也 是 该 总 线 上 的 第 一 个 USB 设备 。 
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所 有 的 根 集线器 都 由 USB 核 心 分 配 了 一 个 独特 的 编号 。 在 我 们 的 例子 中 , 根 集线器 名 为 
usb2 ,因为 它 是 注册 到 USB 核心 的 第 二 个 根 集线器 。 单 个 系统 中 可 以 包含 的 根 集线器 
的 编号 在 任何 时 候 都 是 没有 限制 的 。 


USB 总 线 上 的 每 个 设备 都 以 根 集线器 的 编号 作为 其 名 字 中 的 第 一 个 号 码 , 该 号 码 随后 是 
一 个 横 杠 字符 和 设备 所 插入 的 端口 号 。 因 为 我 们 例子 中 的 设备 插入 到 第 一 个 端口 ，1 被 
添加 到 了 名 字 中 。 因 此 ， 主 USB 鼠标 设备 的 设备 名 是 2-1。 因 为 该 USB 设备 包含 一 个 
接口 ， 导 致 了 树 中 的 另 一 个 设备 被 添加 到 sysfs 路径 中 。USB 接口 的 命名 方案 是 设备 名 
直到 该 接口 为 止 : 在 我 们 的 例子 中 ， 是 2-1 后 面 加 一 个 冒号 和 USB 配置 的 编号 ， 然 后 
是 一 个 句点 和 接口 的 编号 。 因 此 对 于 本 例 而 言 、 设 备 名 是 2-1:1.0， 因 为 它 是 第 一 个 配 
置 ， 具 有 接口 编号 零 。 


概 言 之 ，USB sysfs 设备 命名 方案 为 : 
根 集线器 - 集线器 端口 号 : 配置 . 接口 


随 着 设备 更 深 地 进入 USB 树 ， 和 越 来 越 多 的 USB 集线器 的 使 用 ， 集 线 器 的 端口 号 被 添 
加 到 跟随 着 链 中 前 一 个 集线器 端口 号 的 字符 串 中 。 对 于 一 个 两 层 的 树 ,其 设备 名 类 似 于 : 


根 集线器 - 集线器 端口 号 - 集线器 端口 号 :配置 . 接口 


从 前 面 的 USB 设 备 和 接口 的 目录 列表 可 以 看 到 , 所 有 的 USB 特定 信息 都 可 以 从 sysfs 直 
接 获 得 (例如 ，idVendor、idProduct 和 bMaxPower 信息 )。 这 些 文件 中 的 一 个 ， 即 
bConfigurationValue, 可 以 被 写 入 以 改变 当前 使 用 的 活动 USB 配 置 。 当 内 核 不 能 够 确定 
选择 哪 一 个 配置 以 恰当 地 操作 设备 时 , 这 对 于 具有 多 个 配置 的 设备 很 有 用 。 许 多 USB 调 
制 解 调 器 需要 向 该 文件 中 写 人 适当 的 配置 值 ,以便 把 恰当 的 USB 驱 动 程序 绑 定 到 该 设备 。 


sysfs 并 没有 展示 USB 设备 所 有 的 不 同 部 分 ， 它 只 限于 接口 级 别 。 设 备 可 能 包含 的 任何 
可 选 配置 都 没有 显示 ,还 有 和 接口 相关 联 的 端点 的 细节 。 这 个 信息 可 以 从 usbfs 文件 系 
统 找到 ,该 文件 系统 被 挂 装 到 系统 的 /proc/bus/usb/ 目 录 。/proc/bus/usbidevices 文件 确 
实 显示 了 和 sysfs 所 展示 的 所 有 信息 相同 的 信息 , 还 有 系统 中 存在 的 所 有 USB 设备 的 可 
选 配 置 和 端点 信息 。usbfs 还 允许 用 户 空间 的 程序 直接 访问 USB 设备 ,这 使 得 许多 内 核 
驱动 程序 可 以 迁移 到 用 户 空间 , 从 而 更 加 容易 维护 和 调试 。 USB 扫描 仪 是 一 个 很 好 的 例 
子 ， 它 不 再 存在 于 内 核 中 ， 因 为 它 的 功能 现在 包含 在 了 用 户 空间 的 SANE 库 程序 中 。 


USB urb 


Linux 内 核 中 的 USB 代码 通过 一 个 称 为 urb (USB 请 求 块 ) 的 东西 和 所 有 的 USB 设备 通 
信 。 这 个 请 求 块 使 用 struct urb 结 构 体 来 描述 ， 可 以 从 includellinux/usb.h 文 件 中 找到 。 
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urb 被 用 来 以 一 种 异步 的 方式 往 / 从 特定 的 USB 设备 上 的 特定 USB 端点 发 送 /接收 数据 。 
它 的 使 用 和 文件 系统 异步 MO 代码 中 的 kiocb 结 构 体 以 及 网 络 代码 中 的 struct skbuff 
很 类 似 。USB 设备 驱动 程序 可 能 会 为 单个 端点 分 配 许多 urb， 也 可 能 对 许多 不 同 的 端点 
重用 单个 的 urb， 这 取决 于 驱动 程序 的 需要 。 设 备 中 的 每 个 端点 都 可 以 处 理 一 个 urb 队 
列 ， 所 以 多 个 urb 可 以 在 队列 为 空 之 前 发 送 到 同一 个 端点 。 一 全 urb 的 典型 生命 周期 如 
过。 

。 ”由 USB 设备 驱动 程序 创建 。 

。 ”分 配给 一 个 特定 USB 设备 的 特定 端点 。 

。 ”由 USB 设备 驱动 程序 递交 到 USB 核心 。 

。 ”由 USB 核心 递交 到 特定 设备 的 特定 USB 主 控制 器 驱动 程序 。 

。 ”由 USB 主 控制 器 驱动 程序 处 理 ， 它 从 设备 进行 USB 传送 。 

。 “ 当 urb 结束 之 后 ，USB 主 控制 器 驱动 程序 通知 USB 设备 驱动 程序 。 

urb 可 以 在 任何 时 刻 被 递交 该 urb 的 驱动 程序 取消 掉 ， 或 者 被 USB 核心 取消 ， 如 果 该 设 


备 已 从 系统 中 移 除 。urb 被 动态 地 创建 ， 它 包含 一 个 内 部 引用 计数 ， 使 得 它们 可 以 在 最 
后 一 个 使 用 者 释放 它们 时 自动 地 销毁 。 


本 章 描 述 的 处 理 urb 的 过 程 是 很 有 用 的 ,因为 它 使 得 流 处 理 和 其 他 复杂 的 、 重 登 的 通信 
成 为 可 能 , 而 这 使 驱动 程序 可 以 获得 最 高 可 能 的 数据 传输 速度 。 不 过 如 果 只 是 想 要 发 送 
单独 的 数据 块 或 者 控制 消息 ， 而 不 关心 数据 的 吞吐 率 ， 过 程 就 不 必 如 此 繁琐 。( 请 参考 
“不 使 用 urb 的 USB 传输 ”一 节 )。 


struct urb 
struct urb 结 构 体 中 USB 设备 驱动 程序 需要 关心 的 字段 有 : 


struct usb device *dev 
urb 所 发 送 的 目标 struct usb_device 指 针 。 该 变量 在 urb 可 以 被 发 送 到 USB 核 
心 之 前 必须 由 USB 驱动 程序 初始 化 。 

unsigned int pipe 
urb 所 要 发 送 的 特定 目标 struct usb_qevice 的 端点 信息 。 让 变量 在 urb 可 以 被 必 
送 到 USB 核心 之 前 必须 由 USB 驱动 程序 初始 化 。 
驱动 程序 必须 使 用 下 列 恰 当 的 函数 来 设置 该 结构 体 的 字段 ， 具 体 取决 于 传输 的 方 
向 。 注 意 每 个 端点 只 能 属于 一 种 类 型 。 
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unsigned int usb_sndctrlpipe(Struct usb device *dev, unsigned int 
endpoint) 
把 指定 USB 设备 的 指定 端点 号 设置 为 一 个 控制 OUT 端点 。 
unsigned int Usb_rcvctrlpipe(Struct usb_device *dev, unsigned int 
endpoint) 
把 指定 USB 设备 的 指定 端点 号 设置 为 一 个 控制 IN 端点 。 
unsigned int usb_sndbulkpipe(struct usb_device *dev, unsigned int 
endpoint) 
把 指定 USB 设备 的 指定 端点 号 设置 为 一 个 批量 OUT 端点 。 
unsigned int usb rcvbulkpipe{lstruct usb_device *dev, unsigned int 
endpoint) 
把 指定 USB 设备 的 指定 端点 号 设置 为 一 个 批量 IN 端点 。 
unsigned int usb_sndqintpipe (Struct usb_device *dev, unsigned int 
endpoint) 
把 指定 USB 设备 的 指定 端点 号 设置 为 一 个 中 断 OUT 端点 。 
unsigned int usb_rcvintpipe(struct usb_device *dev, unsigned int 
endpoint) 
把 指定 USB 设备 的 指定 端点 号 设置 为 一 个 中 断 IN 端点 。 
unsigned int usb_sndisocpipelstruct usb_device *dev, unsigned int 
endpoint) 
把 指定 USB 设备 的 指定 端点 号 设置 为 一 个 等 时 OUT 端点 。 
unsigned int usb_rcvisocpipe(struct usb_device *dev, unsigned int 
endpoint) 
把 指定 USB 设备 的 指定 端点 号 设置 为 一 个 等 时 IN 端点 。 


unsigned int transfer_flags 

该 变量 可 以 被 设置 为 许多 不 同 的 位 值 , 取决 于 USB 驱动 程序 对 urb 的 具体 操作 。 可 

用 的 值 包括 : 

URB_SHORT_NOT_OK 
如 果 被 设置 ， 该 值 说 明 任何 可 能 发 生 的 对 IN 端点 的 简短 读 取 应 该 被 USB 核心 
当 作 是 一 个 错误 。 该 值 只 对 从 USB 设备 读 取 的 urb 有 用 ， 对 用 于 写 人 的 urb 没 
意义 。 

URB_ISO_ASAP 
如 果 该 urb 是 等 时 的 ， 当 驱动 程序 想 要 该 urb 被 调度 时 可 以 设置 这 个 位 ， 只 要 
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带宽 的 利用 允许 它 这 么 做 ， 而 且 想 要 在 此 时 设置 urb 中 的 start_frame 变量 。 
如 果 一 个 等 时 的 urb 没有 设置 该 位 ,驱动 程序 必须 指定 start_frame 的 值 ， 如 
果 传 输 在 当时 不 能 启动 的 话 必须 能 够 正确 地 恢复 。 详 情 请 参阅 下 一 节 的 等 时 
urb 部 分 。 
URB_NO_TRANSFER_DMA_MAP 
当 urb 包含 一 个 即将 传输 的 DMA 缓冲 区 时 应 该 设置 该 位 。USB 核心 使 用 
transfer_dma 变 量 所 指向 的 缓冲 区 , 而 不 是 transfer_buffer 变 量 所 指向 的 。 
URB_NO_SETUP_DMA_MAP 
和 URB_NO_TRANSFER_DMA_MAP 位 类 似 , 该 位 用 于 控制 带 有 已 设置 好 的 DMA 组 
冲 区 的 urb。 如 果 它 被 设置 ，USB 核心 使 用 setup_Gma 变量 所 指向 的 缓冲 区 ， 
而 不 是 setup_packet 变量 。 
URB_ASYNC_UNLINK 
如 果 被 设置 ， 对 该 urb 的 usb_unlink_urb 调用 几乎 立即 返回 ,该 urb 的 链接 在 
后 台 被 解 开 。 否 则 ， 此 函数 一 直 等 到 urb 被 完全 解 开 链 接 和 结束 才 返 回 。 使 用 
该 位 时 要 小 心 ， 因 为 它 可 能 会 造成 非常 难以 调试 的 同步 问题 。 
URB_NO_FSBR 
仅 由 UHCI USB 主 控制 器 驱动 程序 使 用 ， 指 示 它 不 要 企图 使 用 前 端 总 线 回收 
(Front Side Bus Reclamation ) 逻辑 。 该 位 通常 不 应 该 被 设置 , 因为 带 有 UHCI 
主 控制 器 的 机 器 会 导致 大 量 的 CPU 负荷 , 而 PCI 总 线 忙于 等 待 一 个 设置 了 该 位 
的 urb。 
URB_ZERO_PACKET 
如 果 被 设置 ， 一 个 批量 输出 urb 以 发 送 一 个 不 包含 数据 的 小 数据 包 来 结束 ， 这 
时 数据 对 齐 到 一 个 端点 数据 包 边 界 。 一 些 断 线 的 USB 设备 〈 例 如 许多 USB 到 
IR 设备 ) 需要 该 位 才能 正确 地 工作 。 


URB_NO_INTERRUPT 
如 果 被 设置 ， 当 urb 结束 时 ,硬件 可 能 不 会 产生 一 个 中 断 。 对 该 位 的 使 用 应 当 
小 心 谨慎 ,只 有 把 多 个 urb 排 队 到 同一 个 端点 时 才 使 用 。USB 核心 的 函数 使 用 
该 位 来 进行 DMA 缓冲 区 传输 。 


void *transfer_buffer 


指向 用 于 发 送 数据 到 设备 (OUT urb) 或 者 从 设备 接收 数据 (IN urb) 的 缓冲 区 的 
指针 。 为 了 使 主 控制 器 正确 地 访问 该 缓冲 区 ， 必 须 使 用 kmalloc 来 创建 它 ， 而 不 
是 在 栈 中 或 者 静态 内 存 中 。 对 于 控制 端点 ， 该 缓冲 区 用 于 传输 数据 的 中 转 。 


dma_addr_t transfer_dma 


用 于 以 DMA 方式 传输 数据 到 USB 设备 的 缓冲 区 。 
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int 


transfer_buffer_length 
transfer_pbuffer 或 者 transfer_dma 变量 所 指向 的 缓冲 区 的 大 小 { 因为 一 个 urb 
只 能 使 用 其 中 一 个 )。 如 果 该 值 为 0， 两 个 传输 缓冲 区 都 没有 被 USB 核心 使 用 。 


对 于 一 个 OUT 端 点 ,如果 端 点 的 最 大 尺寸 小 于 该 变量 所 指定 的 值 , 到 USB 设备 的 
传输 将 被 分 解 为 更 小 的 数据 块 以 便 正 确 地 传输 数据 .这 种 大 数据 量 的 传输 以 连续 的 
USB 帧 的 方式 进行 。 在 一 个 urb 中 提交 一 个 大 数据 块 然后 让 USB 主 控制 器 把 它 分 
割 为 更 小 的 块 ， 比 以 连续 的 次 序 发 送 更 小 的 缓冲 区 的 速度 快 得 多 。 


unsigned char *setup packet 


指向 控制 urb 的 设置 数据 包 的 指针 。 它 在 传输 缓冲 区 中 的 数据 之 前 被 传送 。 该 变量 
只 对 控制 urb 有 效 。 


dma_addr t setup_dma 


控制 urb 用 于 设置 数据 包 的 DMA 缓冲 区 。 它 在 普通 传输 缓冲 区 中 的 数据 之 前 被 传 
送 。 该 变量 只 对 控制 urb 有 效 。 


usb_complete._t complete 


指向 一 个 结束 处 理 例 程 的 指针 , 当 urb 被 完全 传输 或 者 发 生 错误 时 ，USB 核心 将 调 
用 该 函数 。 在 该 函数 内 ，USB 驱动 程序 可 以 检查 urb, 释放 它 , 或 者 把 它 重 新 提交 
到 另 一 个 传输 中 去 。 (有关 结束 处 理 例 程 的 详情 请 参阅 “结束 urb: 结束 回调 处 理 例 
程 ”一 节 )。 

usb_complete_t 的 类 型 定义 为 : 


typedef void {*usb,_ complete_t){struct urb *, struct pt_regs 克 } 


void *context 


int 


7it 


指向 一 个 可 以 被 USB 驱动 程序 设置 的 数据 块 。 它 可 以 在 结束 处 理 例 程 中 当 urb 被 返 
回 到 驱动 程序 时 使 用 。 有 关 该 变量 的 详情 请 参阅 随后 的 小 节 。 


actual_length 

当 urb 结束 之 后 ， 该 变量 被 设置 为 urb 所 发 送 的 数据 (OUT urb) 或 者 urb 所 接收 
的 数据 (IN urb) 的 实际 长 度 。 对 于 IN urb， 必 须 使 用 该 变量 而 不 是 transfer. 
buffer_length 变量 ， 因 为 所 接收 的 数据 可 能 小 于 整个 缓冲 区 的 尺寸 。 

status 

当 urb 结束 之 后 ,或 者 正在 被 USB 核心 处 理 时 ， 该 变量 被 设置 为 urb 的 当前 状态 。 
USB 驱动 程序 可 以 安全 地 访问 该 变量 的 唯一 时 刻 是 在 urb 结 束 处 理 例 程 中 (在 “ 结 
束 urb: 结束 回调 处 理 例 程 ”一 节 中 描述 )。 该 限制 是 为 了 防止 当 urb 正在 被 USB 
核心 处 理 时 竞 态 的 发 生 。 对 于 等 时 urb, 该 变量 的 一 个 成 功 值 (0) 只 表示 urb 是 否 
已 经 被 解 开 链接 。 如 果 要 获取 等 时 urb 的 详细 和 状态， 应 该 检查 iso_frame_desc 变 
量 。 
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该 变量 的 有 效 值 包括 : 

0 
urb 传输 成 功 。 

-ENOENT 
urb 被 4sb_kill_urb 调用 终止 。 

-ECONNRESET 
urb 被 4sb_unlink_urb 调 用 解 开 链 接 , urb 的 transfer_flags 变 量 被 设置 为 
URB_RASYNC_UNLINK 。 

-EINPROGRESS 
urb 仍然 在 被 USB 主 控制 器 处 理 。 如 果 驱 动 程序 中 检查 到 该 值 ， 说 明 存 在 代码 
缺陷 。 

-EPROTO 
urb 发 生 了 下 列 错误 之 一 : 
。 在 传输 中 发 生 了 bitstuff 错误 。 
。 硬件 没有 及 时 接收 到 响应 数据 包 。 

-EILSEQ 
urb 传输 中 发 生 了 CRC 校 验 不 匹配 。 

-EPIPE 
端点 被 中 止 。 如 果 涉 及 的 端点 不 是 控制 端点 ， 可 以 调用 usb_clear_halt 函数 来 
清除 该 错误 。 

-ECOMM 
传输 时 数据 的 接收 速度 比 把 它 写 到 系统 内 存 的 速度 快 。 该 错误 值 仅 发 生 在 IN 
urb 上 。 

-ENOSR 
传输 时 从 系统 内 存 获取 数据 的 速度 不 够 快 , 跟 不 上 所 要 求 的 USB 数据 速率 . 该 
错误 值 仅 发 生 在 OUT urb 上 。 

-EOVERFLOW 
urb 发 生 了 “串扰 (babble)” 错误。“ 串 扰 ” 错 误 发 生 在 端点 接收 了 超过 端点 指 
定 最 大 数据 包 尺寸 的 数据 时 。 

-EREMOTEIO 
仅 发 生 在 urb 的 transfer_flags 变量 被 设置 URB_SHORT_NOT_OK 标 志 时 ， 表 
示 urb 没有 接收 到 所 要 求 的 全 部 数据 量 。 
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int 


int 


int 


int 


-ENODEV 
USB 设备 已 从 系统 移 除 。 
-EXDEV 
仅 发 生 在 等 时 urb 上 ,表示 传输 仪 部 分 完成 。 为 了 确定 所 传输 的 内 容 ， 驱 动 程 
序 必须 查看 单个 帧 的 状态 。 
-EINVAL 
urb 发 生 了 很 糟糕 的 事情 。USB 内 核 文档 描述 了 该 值 的 含义 : 
等 时 错乱 ， 如 果 发 生 这 种 情况 : 退出 系统 然后 何 家 
如 果 urb 结 构 体 中 的 某 一 个 参数 没有 被 正确 地 设置 或 者 usb_submit_urb 调 用 中 
的 不 正确 函数 参数 把 urb 提交 到 了 USB 核心 ， 也 可 能 发 生 这 个 错误 。 
-ESHUTDOWN 
USB 主 控制 器 驱动 程序 发 生 了 严重 的 错误 ; 设备 已 经 被 禁止 ,或 者 从 系统 脱 
离 ， 而 urb 在 设备 被 移 除 之 后 提交 。 如 果 当 urb 被 提交 到 设备 时 设备 的 配置 被 
改变 ， 也 可 能 发 生 这 个 错误 。 
一 般 来 说 , 错误 值 -EPRoTO、-EILSEQ 和 -EOVERFLOW 表 示 设 备 、 设 备 的 固件 
或 者 把 设备 连接 到 计算 机 的 电缆 发 生 了 硬件 故障 。 


start_frame 

设置 或 者 返回 初始 的 帧 数量 ， 用 于 等 时 传输 。 

interval 

urb 被 轮 询 的 时 间 间 隔 。 仅 对 中 邮 或 者 等 时 urb 有 效 。 该 值 的 单位 随 着 设备 速度 的 
不 同 而 不 同 。 对 于 低速 和 满 速 的 设备 , 单位 是 帧 , 相当 于 毫秒 。 对 于 其 他 设备 , 单 
位 是 微 帧 (microframe )， 相 当 于 毫秒 的 118。 对 于 等 时 或 者 中 断 urb， 在 urb 被 发 
送 到 USB 核心 之 前 ，USB 驱动 程序 必须 设置 该 值 。 

number_of_packets 

仅 对 等 时 urb 有效 , 指定 该 urb 所 处 理 的 等 时 传输 缓冲 区 的 数量 。 对 于 等 时 urb, 在 
urb 被 发 送 到 USB 核心 之 前 ，USB 蝶 动 程序 必须 设置 该 值 。 

error_count 

由 USB 核 心 设置 , 仅 用 于 等 时 urb 结 束 之 后 。 它 表 示 报 告 了 任何 一 种 类 型 错误 的 等 
时 传输 的 数量 。 


struct usb_iso packet_descriptor iso_frame desc[0] 


仅 对 等 时 urb 有 效 。 该 变量 是 一 个 struct usb_iso_packet_descriptor 结构 体 
数组 。 该 结构 体 允 许 单个 urb 一 次 定义 许多 等 时 传输 。 它 还 用 于 收集 每 个 单独 传输 
的 传输 状态 。 
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struct usb_iso_packet_descriptor 由 下 列 字段 组 成 : 
unsigned int offset 
该 数据 包 的 数据 在 传输 缓冲 区 中 的 偏 移 量 (第 一 个 字 节 为 0)。 
unsigned int length 
该 数据 包 的 传输 缓冲 区 大 小 。 
unsigned int actual_length 
该 等 时 数据 包 接收 到 传输 缓冲 区 中 的 数据 长 度 。 
unsigned int status 
该 数据 包 的 单个 等 时 传输 的 状态 。 它 可 以 把 相同 的 返回 值 作为 主 struct urb 
结构 体 的 状态 变量 。 


创建 和 销毁 urb 


struct urb 结构 体 不 能 在 驱动 程序 中 或 者 另 一 个 结构 体 中 静态 地 创建 ， 因 为 这 样 会 
破坏 USB 核 心 对 urb 所 使 用 的 引用 计数 机 制 。 它 必须 使 用 usb_alloc_urb 函 数 来 创建 。 该 
函数 原型 如 下 : 


struct urb *usb_alloc urblint iso_packets，int mem_flags); 


第 一 个 参数 ，iso_packets， 是 该 urb 应 该 包含 的 等 时 数据 包 的 数量 。 如 果 不 打算 创建 
等 时 urb ， 该 值 应 该 设置 为 0。 第 二 个 参数 ，mem_flags ， 和 传递 给 用 于 从 内 核 分 配 内 
存 的 kmalloc 函数 (这 些 标 志 的 详情 参见 第 八 章 的 “标志 参数 ”一 节 ) 的 标志 有 相同 的 
类 型 。 如 果 读 函数 成 功 地 为 urb 分 配 了 足够 的 内 存 空间 ， 指 向 该 urb 的 指针 将 被 返回 给 
调用 函数 。 如 果 返 回 值 为 NULL, 说 明 USB 核心 内 发 生 了 错误 ,驱动 程序 需要 进行 适当 
的 清理 。 


当 一 个 urb 被 创建 之 后 , 在 它 可 以 被 USB 核心 使 用 之 前 必须 被 正确 地 初始 化 。 关于 如 何 
初始 化 不 同类 型 的 urb， 参 见 随后 的 小 节 。 


驱动 程序 必须 调用 usb_free_urb 函数 来 告诉 USB 核心 驱动 程序 已 经 使 用 完 urb。 该 函数 
只 有 一 个 参数 : 


void usb_free_urb(sStruct urb *urb); 


这 个 参数 是 指向 所 需 释放 的 struct urb 的 指针 。 在 该 函数 被 调用 之 后 ， urb 结 构 体 就 消失 
了 ， 驱 动 程序 不 能 再 访问 它 。 
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中 断 urb 


usb_1L_inf_uurb 是 一 个 辅助 函数 ,用 来 正确 地 初始 化 即将 被 发 送 到 USB 设 备 的 中 断 端点 
的 urb: 
void usb_fill_int_urblstruct urb *urb, struct usb device *dev， 
unsigned int pipe, void *transfer_buffer, 


int buffer._length, usb_complete_t complete, 
void *context, int interval); 


该 函数 包含 很 多 的 参数 : 


struct urb *urb 
指向 需 初 始 化 的 urb 的 指针 。 
struct usb_device *dev 
该 urb 所 发 送 的 目标 USB 设备 。 
unsigned int pipe 
该 urb 所 发 送 的 目标 USB 设备 的 特定 端点 。 该 值 是 使 用 前 述 4sb_sndinipipe 或 
usb_revintpipe 函数 来 创建 的 。 
void *transfer_buffer 
用 于 保存 外 发 数据 或 者 接收 数据 的 缓冲 区 的 指针 。 注意 它 不 能 是 一 个 静态 的 缓冲 
区 ， 必 须 使 用 kmalioc 调用 来 创建 。 
int buffer.length 
transfer_buffer 指针 所 指向 的 缓冲 区 的 大 小 。 
usb_complete_t complete 


指向 当 该 urb 结束 之 后 调用 的 结束 处 理 例 程 的 指针 ， 


void *context 
指向 一 个 小 数据 块 ， 该 块 被 添加 到 urb 结构 体 中 以 便 进行 结束 处 理 例 程 后 面 的 查 
找 。 

int interval 
该 urb 应 访 被 调度 的 间隔 。 有 关 该 值 的 正确 单位 ， 请 参考 前 面 对 struct urb 结 
构 体 的 描述 。 


批量 urb 
批量 urb 的 初始 化 和 中 断 urb 很 相似 。 所 使 用 的 相关 函数 是 usb_fil!_bulk_urb， 原型 如 下 : 


void usb_fill_bulk urb{struct urb *urb, struct usb_device *dev, 
unsigned int pipe, void *transfer_buffer, 
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int buffer_length，usb_complete_t complete., 
void *context); 


该 函数 的 参数 和 usb_fill_int_urb 函数 完全 一 样 。 不 过 ， 没 有 时 间 间 隔 参 数 ， 因 为 批量 
urb 没有 时 间 间 隔 值 。 请 注意 ， 无 符号 整 型 pipe 变量 必须 使 用 usb_sndbulkpipe 或 
usb_rcvbulkpipe 函数 来 初始 化 。 


usb_fill_int_urb 函数 不 在 urb 中 设置 transfer_flags 变量 , 因此 ,驱动 程序 必须 自 
己 来 修改 该 字段 。 


控制 urb 
控制 urb 的 初始 化 方法 和 批量 urb 几乎 一 样 ， 调 用 usb_fill_control_urb 函数 。 


void usb, fill_control_urb{(struct urb *urb, struct usb_device *dev, 
unsigned int pipe, unsigned char *setup_packet, 
void *transfer buffer, int buffer_length, 
usb_complete_t complete, void *context); 


孙 数 参数 和 usb_fill_bulk_urb 函数 完全 一 样 ， 除 了 一 个 新 的 参数 ， 即 unsigned char 
*setup_packet, 它 指向 即将 被 发 送 到 端点 的 设置 数据 包 的 数据 .同样 ,无 符号 整 型 pipe 
变量 必须 使 用 usb_sndctripipe 或 usb_rcvictripipe 函数 来 初始 化 。 


usb_fill_control_urb 函数 不 设置 urb 中 的 transfer_flags 变量 ， 因此 驱动 程序 必须 自 
己 修改 该 字段 。 大 部 分 的 驱动 程序 不 使 用 该 函数 ， 因 为 使 用 “不 使 用 urb 的 USB 传输 ” 
一 节 中 描述 的 同步 API 调用 更 加 简单 。 


等 时 urb 


不 幸 的 是 ， 等 时 urb 没有 和 中 断 、 控 制 和 批量 urb 类 似 的 初始 化 函数 。 因 此 它们 在 被 提 
交 到 USB 核心 之 前 , 必须 在 驱动 程序 中 “手工 地 ”进行 初始 化 。 下 面 是 一 个 关于 如 何 正 
确 地 初始 化 该 类 型 urb 的 例子 。 它 是 从 主 内 核 源 代码 树 的 drivers/usb/imedia 目录 下 的 
konicawc.c 内 核 驱 动 程序 中 拿 出 来 的 。 


urb->dev = dev; 

urb->context = uvd; 

urb->pipe = usb_rcvisocpipe (dev, uvd->video_endp-1); 

urb->interval = 1; 

Urb->transfer_flags = URB_ISO_ASAP; 

urb->transfer_buffer = cam->sts_buf [il]; 

urb->complete = konicawc_isoc_irq; 

urb->number._of_packets = FRAMES_PER DESC; 

urb->transfer_buffer_length = FRAMES_PER_DESC; 

for (j=0; j < FRAMES_PER_DESC; j++) { 
urb->iso_frame_desc[j].offset = j; 
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urb->iso_frame_desc[j] .length = 1; 


提交 urb 


-- 日 urb 被 USB 驱动 程序 正确 地 创建 和 初始 化 之 后 ， 就 可 以 提交 到 USB 核心 以 发 送 到 
USB 设备 了 。 这 是 通过 调用 xsb_submir_urb 函数 来 完成 的 。 


int usb_submit_urb(struct urb *urb, int mem flags); 


urb 参 数 是 指向 即将 被 发 送 到 设备 的 urb 的 指针 。 mem_f1ags 参 数 等 同 于 传递 给 kmalloc 
调用 的 同一 个 参数 ， 用 于 告诉 USB 核心 如 何在 此 时 及 时 地 分 配 内 存 缓冲 区 。 


当 一 个 urb 被 成 功 地 提交 到 USB 核心 之 后 , 在 接收 函数 被 调用 之 前 不 能 访问 该 urb 结构 
体 中 的 任何 字段 。 因为 usb_submit_urb 函数 可 以 在 任何 时 刻 调用 (包括 从 一 个 中 断 上 下 
文中 ), mem_flags 变量 的 内 容 必须 是 正确 的 。 其 实 只 有 三 个 有 效 的 值 可 以 被 使 用 , 取 
决 于 usb_submit_urb 何 时 被 调用 : 


GFP_ATOMIC 
只 要 下 列 条 件 成 立 就 应 该 使 用 该 值 : 
。 调用 者 是 在 一 个 urb 结束 处 理 例 程 、 中 断 处 理 例 程 、 底 半 部 、 tasklet 或 者 定时 
器 回调 函数 中 。 
。 调用 者 正 持 有 一 个 自 旋 锁 或 读 写 锁 。 注 意 如 果 持 有 了 信号 量 ， 该 值 就 不 需要 了 。 
。 current->state 不 是 TASK_RUNNING。 该 状态 永远 是 TASK--RUNNING， 
除非 驱动 程序 自己 改变 了 当前 的 状态 。 
GFP_NOIO 
如 果 驱 动 程序 处 于 块 IO 路 径 中 应 该 使 用 该 值 。 在 所 有 存储 类 型 的 设备 的 错误 处 理 
路 径 中 也 应 该 使 用 它 。 
GFP_KERNEL 
该 值 应 该 在 前 述 类 别 之 外 的 所 有 情况 中 使 用 。 


结束 urb: 结束 回调 处 理 例 程 

如 果 调 用 usb_submit_urb 成 功 ， 把 对 urb 的 控制 转交 给 USB 核心 , 该 函数 返回 0; 否则 ， 
返回 负 的 错误 号 。 如 果 函 数 调用 成 功 ， 当 urb 结束 的 时 候 urb 的 结束 处 理 例 程 ( 由 结束 
函数 指针 指定 ) 正好 被 调用 一 次 。 当 该 函数 被 调用 时 ， USB 核心 结束 了 对 URB 的 处 理 ， 
此 刻 对 它 的 控制 被 返回 给 设备 驱动 程序 。 
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只 有 三 种 结束 urb 和 调用 结束 函数 的 情形 : 


。 “urb 被 成 功 地 发 送 到 了 设备 , 设备 返回 了 正确 的 确认 。 对 于 OUT urb 而 言 就 是 数据 
被 成 功 地 发 送 , 对 于 INT urb 而 言 就 是 所 请 求 的 数据 被 成 功 地 接收 到 。 如 果 确 实 这 
样 ，urb 中 的 status 变量 被 设置 为 0。 


。 ”发 送 数 据 到 设备 或 者 从 设备 接收 数据 时 发 生 了 某 种 错误 。 错误 情况 由 urb 结 构 体 中 
的 status 变量 的 错误 值 来 指示 。 


。 “urb 从 USB 核 心中 被 “ 解 开 链 接 "。 当 驱动 程序 通过 usb_unlink_urb 或 usb_kill_urb 
调用 告诉 USB 核心 取消 一 个 已 提交 的 urb 时， 或 者 当 设 备 从 系统 中 被 移 除 而 一 个 
urb 已 经 提交 给 它 时 ， 会 发 生 这 种 情况 。 


本 章 的 稍 后 将 给 出 一 个 如 何在 urb 结束 调用 内 检测 各 种 不 同 的 返回 值 的 示例 。 


取消 urb 
应 该 调用 usb_kill_urb 或 usb_unlink_urb 汶 数 来 终止 一 个 已 经 被 提交 到 USB 核 心 的 urb。 


int usb_kill_urbl(struct urb *urb); 
int usb_unlink urbl{lstruct urb *urb); 


这 两 个 函数 的 urb 参数 是 指向 即将 被 取消 的 urb 的 指针 。 


如 果 调 用 usb_kill_urb 了 销 数 ， 该 urb 的 生命 周期 将 被 终止 。 通 常 是 当 设 备 从 系统 中 被 断 
开 时 ， 在 断 开 回调 函数 中 调用 该 函数 。 


对 于 某 些 驱 动 程序 而 言 ， 应 该 使 用 wsb_unlink_urb 函数 来 告诉 USB 核心 终止 一 个 urb。 
该 函数 并 不 等 到 urb 完 全 被 终止 之 后 才 返 回 到 调用 函数 。 这 对 于 在 中 断 处 理 例 程 中 或 者 
持 有 一 个 自 旋 锁 时 终止 一 个 urb 是 很 有 用 的 ,因为 等 待 一 个 urb 完 全 被 终止 需要 USB 核 
心 具 有 使 调用 进程 睡 卢 的 能 力 。 该 函数 需要 被 要 求 终止 的 urb 中 的 
URB_ASYNC_UNLINK 标志 值 被 设置 才能 正确 地 工作 。 


编写 USB 驱动 程序 


编写 一 个 USB 设备 驱动 程序 的 方法 和 pci_driver 类 似 : 驱动 程序 把 驱动 程序 对 象 注 
册 到 USB 子 系统 中 ， 稍 后 再 使 用 制造 商 和 设备 标识 来 判断 是 否 已 经 安装 了 硬件 。 


驱动 程序 支持 哪些 设备 ? 


struct usb_device_id 结 构 体 提 供 了 一 列 不 同类 型 的 该 驱动 程序 支持 的 USB 设 备 。 
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USB 核 心 使 用 该 列表 来 判断 对 于 一 个 设备 该 使 用 哪 一 个 驱动 程序 , 热 插 拔 脚本 使 用 它 来 
确定 当 一 个 特定 的 设备 插入 到 系统 时 该 自动 装载 哪 一 个 驱动 程序 。 


struct usb_device_id 结 构 体 包括 下 列 字 段 : 


__ul6 match_flags 
确定 设备 和 结构 体 中 下 列 字段 中 的 哪 一 个 相 匹 配 。 这 是 一 个 由 inciudellinux/ 
mod_devicetable.h 文 件 中 指定 的 不 同 的 USB_DEVICE_ID_MATCH_* 值 定义 的 位 
字段 。 通常 不 直接 设置 该 字段 , 而 是 使 用 稍 后 介绍 的 USB_DEVICE 类 型 的 宏 来 初 
始 化 。 

__uli6 idVvendor 
设备 的 USB 制造 商 ID。 该 编号 是 由 USB 论 坛 指 派 给 其 成 员 的 , 不 会 由 其 他 人 指定 。 


__uU16 idProduct 
设备 的 USB 产品 ID. 所 有 指派 了 制造 商 ID 的 制造 商都 可 以 随意 地 赋予 其 产品 ID 。 


__ul6 bcdDevice_lo 

__ul6 bcdDevice_hi 
定义 了 制造 商 指派 的 产品 的 版 本 号 范围 的 最 低 和 最 高 值 。bcdpevice_hi 值 包括 在 
内 ; 该 值 是 最 高 编号 的 设备 的 编号 。 这 两 个 值 都 以 二 进 制 编码 的 十 进 制 (BCD ) 格 
式 来 表示 。 这 些 变量 , 加 上 idVendor 和 idProduct, 用 来 定义 设备 的 特定 版 本 号 。 

__u8 bDeviceClass 

__u8 bDeviceSubClass 

__u8 bpeviceProtocol 
分 别 定义 设备 的 类 型 、 子 类 型 和 协议 。 这 些 编号 由 USB 论坛 指派 ,定义 在 USB 规 
范 中 。 这 些 值 详 细 说 明了 整个 设备 的 行为 ， 包 括 该 设备 上 的 所 有 接口 。 

__u8 bInterfaceClass 

__u8 bInterfaceSubClass 

__u8 bInterfaceProtocol : 
和 上 述 设 备 特定 的 值 很 类 似 , 这 些 值 分 别 定义 类 型 、 子 类 型 和 单个 接口 的 协议 。 这 
些 编号 由 USB 论坛 指派 ， 定 义 在 USB 规范 中 。 

kernel_ulong_t driver_info 
该 值 不 是 用 来 比较 是 否 匹配 的 ， 不 过 它 包 含 了 驱动 程序 在 USB 驱动 程序 的 探测 回 
调 函 数 中 可 以 用 来 区 分 不 同 设备 的 信息 。 


对 于 PCI 设备 ， 有 许多 用 来 初始 化 该 结构 体 的 宏 : 
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USB_DEVICE (vendor, product} 
创建 一 个 struct usb_device_id 结 构 体 , 仅 和 指定 的 制造 商 和 产品 ID 值 相 匹配 。 
该 宏 常 用 于 需要 一 个 特定 驱动 程序 的 USB 设备 。 
USB_DEVICE_VER{vendor, product, lo, hi) 
创建 一 个 struct usb_device_id 结 构 体 ， 仅 和 某 版 本 范围 内 的 指定 制造 商 和 产 
品 ID 值 相 匹 配 。 
USB_DEVICE_INFO(class, subclass, protocol) 
创建 一 个 struct usb_device_id 结 构 体 ， 仅 和 USB 设备 的 指定 类 型 相 匹 配 。 
USB_INTERFACE_INFO(class, subclass, protocol) 
创建 一 个 struct usb_device_id 结 构 体 , 仅 和 USB 接口 的 指定 类 型 相 匹配 。 


因此 , 对 于 一 个 只 控制 来 自 单一 制造 商 的 单一 USB 设 备 的 简单 USB 设备 驱 动 程序 来 说 ， 
struct usb_device_id 表 将 被 定义 为 : 


/* 该 驱动 程序 支持 的 设备 列表 */ 


static struct usb_device_id skel table [ ] = 1{ 
{ USB_DEVICE (USB_SKEL_VENDOR_ID，USB_SKEL_PRODUCT_ID) }, 
全 /* 终止 人 口 项 */ 


i (usb, skel_table); 
对 于 PC 驱动 程序 ，MODULE_DEVICE_TABLE 宏 是 必需 的 ， 以 允许 用 户 空间 的 工具 判 
断 出 该 驱动 程序 可 以 控制 什么 设备 。 但 是 对 于 USB 驱动 程序 来 说 , 字符 串 usb 必须 是 该 
宏 中 的 第 一 个 值 。 


注册 USB 驱动 程序 


所 有 USB 驱 动 程序 都 必须 创建 的 主要 结构 体 是 stzruct usb_driver。 该 结构 体 必 须 
由 USB 驱动 程序 来 填写 , 包括 许多 回调 函数 和 变量 ， 它 们 向 USB 核心 代码 描述 了 USB 
驱动 程序 。 


struct module *owner 
指向 该 驱动 程序 的 模块 所 有 者 的 指针 。USB 核心 使 用 它 来 正确 地 对 该 USB 驱动 程 
序 进行 引用 计数 ， 使 它 不 会 在 不 合适 的 时 刻 被 印 载 掉 。 该 变量 应 该 被 设置 为 
THIS_MODULE 宏 。 


const char *name 
指向 驱动 程序 名 字 的 指针 。 在 内 核 的 所 有 USB 驱动 程序 中 它 必 须 是 唯一 的 ， 通常 
被 设置 为 和 驱动 程序 模块 名 相同 的 名 字 。 如 果 该 驱动 程序 运行 在 内 核 中 ， 可 以 在 
sysfs 的 /sys/bus/usb/drivers/ 下 面 找 到 它 。 
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const struct usb_device_id *id_table 
指向 struct usb_device_id 表 的 指针 , 该 表 包 含 了 一 列 该 驱动 程序 可 以 支持 
的 所 有 不 同类 型 的 USB 设备 。 如 果 没 有 设置 该 变量 ,USB 驱动 程序 中 的 探测 回调 
函数 不 会 被 调用 。 如 果 想 要 驱动 程序 对 于 系统 中 的 每 一 个 USB 设备 都 被 调用 ， 创 
建 一 个 只 设置 driver_info 字段 的 条 目 : 
static struct usb device_id usb_ids{ ]={ 

{.driver_info = 42}, 
| 

}; 

int (*probe) (struct usb_interface *intf, const struct usb device_id *id) 
指向 USB 驱动 程序 中 的 探测 函数 的 指针 。 当 USB 核心 认为 它 有 一 个 struct 
usb_interface 可 以 由 该 驱动 程序 处 理 时 , 它 将 调用 该 函数 (在 “探测 和 断 开 的 细 
节 ” 一 节 中 描述 )。USB 核心 用 来 作 判断 的 指向 struct usb_device_id 的 指针 也 
被 传递 给 该 函数 。 如 果 USB 驱动 程序 确认 传递 给 它 的 struct usb_interface, 它 
应 该 恰当 地 初始 化 设备 然后 返回 0。 如 果 驱 动 程序 不 确认 该 设备 ,或 者 发 生 了 错误 ， 
它 应 该 返回 一 个 负 的 错误 值 。 

void (*disconnect) {struct usb_interface *intf) 
指向 USB 驱动 程序 中 的 断 开 函数 的 指针 。 当 struct usb_interface 被 从 系统 中 
移 除 或 者 驱动 程序 正在 从 USB 核心 中 卸载 时 ，USB 核心 将 调用 该 函数 (在 “探测 
和 断 开 的 细节 ”一 节 中 描述 )， 


因此 ， 创 建 一 个 有 效 的 struct usb_driver 结构 体 只 需要 初始 化 五 个 字段 : 


static struct usb_driver skel_driver = { 
,Owner = THIS_MODULE， 
.name = "skeleton", 
.id table = skel_table, 
.Probe = skel_ probe, 
.disconnect = skel_disconnect, 
}; 


struct usb_driver 还 包含 了 另外 几 个 回调 久 数 ,这 些 函 数 不 是 很 常用 ， 对 于 一 个 
USB 驱动 程序 的 正常 工作 不 是 必需 的 : 


int (*ioctl) {struct usb_interface *intf, unsiqned int code, void *buf) 
指向 USB 驱动 程序 中 的 iocti 函数 。 如 果 该 函数 存在 ， 当 用 户 空间 的 程序 对 usbfs 
文件 系统 中 的 设备 文件 进行 了 ioct! 调 用 , 而 和 该 设备 文件 相关 联 的 USB 设备 附着 
在 该 USB 驱动 程序 上 时 ， 它 将 被 调用 。 实 际 上 ， 只 有 USB 集线器 驱动 程序 使 用 该 
ioctl， 其 他 的 USB 驱动 程序 都 没有 使 用 它 的 真实 需要 。 
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int {*suspend) (struct usb. interface *intf, u32 state) 
指向 USB 驱动 程序 中 的 挂 起 函数 的 指针 。 当 设 备 将 被 USB 核 心 挂 起 时 调用 该 函数 。 
int (*resume) (struct usb_interface *intf) 


指向 USB 驱 动 程序 中 的 恢复 函数 的 指针 。 当 设备 将 被 USB 核 心 恢复 时 调用 该 函数 。 


以 struct usb_driver 指针 为 参数 的 usb_register_driver 图 数 调用 把 stzuct 
usb_dqriver 注 册 到 USB 核 心 。 传 统 上 是 在 USB 驱 动 程序 的 模块 初始 化 代码 中 完成 该 工 
作 的 : 

static int __init usb skel_init (void) 


{ 


int result; 


/* 把 该 驱动 程序 注册 到 USB 子 系统 */ 
result = usb_register(&skel_driver); 
if {result) 
err{"usb_register failed. Error number $%d", result); 


return result,; 


} 


当 USB 驱动 程序 将 要 被 卸载 时 , 需要 把 struct usb_ariver 从 内 核 中 注销 。 通过 调用 
xsb_deregister_driver 来 完成 该 工作 。 当 该 调用 发 生 时 ， 当 前 绑 定 到 该 驱动 程序 上 的 任 
何 USB 接口 都 被 断 开 ， 断 开 函 数 将 被 调用 。 
static void . _ exit usb_skel_exit (void) 
{ 
/* 把 该 驱动 程序 从 USB 子 系统 注销 */ 


usb_deregister (kskel_driver); 
} 


探测 和 断 开 的 细节 


上 一 节 描 述 的 struct usb_9river 结 构 体 中 ,驱动 程序 指定 了 两 个 USB 核心 在 适当 时 
间 调 用 的 函数 。 当 一 个 设备 被 安装 而 USB 核 心 认为 该 驱 动 程序 应 该 处 理 时 , 探测 函数 被 
调用 ; 探测 函数 应 该 检查 传递 给 它 的 设备 信息 , 确定 驱动 程序 是 否 真 的 适合 该 设备 。 当 
驱动 程序 因为 某 种 原因 不 应 控制 设备 时 ， 断 开 函 数 被 调用 ， 它 可 以 做 一 些 清理 的 工作 。 


探测 和 断 开 回调 函数 都 是 在 USB 集 线 器 内 核 线程 的 上 下 文中 被 调用 的 ,因此 在 其 中 睡眠 
是 合法 的 。 然而 , 建议 大 部 分 的 工作 尽 可 能 地 在 用 户 打 开设 备 时 完成 , 从 而 把 USB 探测 
的 时 间 减 到 最 少 。 因 为 USB 核心 在 单一 线程 中 处 理 USB 设备 的 添加 和 删除 ,任何 低速 
的 设备 驱动 程序 都 可 以 减 慢 USB 设备 的 探测 时 间 ， 从 而 影响 用 户 的 使 用 。 
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在 探测 回调 函数 中 ，USB 驱动 程序 应 该 初始 化 任何 可 能 用 于 控制 USB 设备 的 局 部 结构 
体 。 它 还 应 该 把 所 需 的 任何 设备 相关 信息 保存 到 局 部 结构 体 中 , 因为 在 此 时 做 该 工作 是 
比较 容易 的 。 例 如 , USB 驱动 程序 通常 需要 探测 设备 的 端点 地 址 和 缓冲 区 大 小 , 因为 需 
要 它们 才能 和 设备 进行 通信 。 这 里 是 一 些 示 例 代码 ,它们 探测 批量 类 型 的 IN 和 OUT 端 
点 ， 把 相关 的 信息 保存 到 一 个 局 部 设备 结构 体 中 : 


/* 设置 端点 信息 */ 

/* 只 使 用 第 一 个 批量 IN 和 批量 CUT 端点 */ 

iface desc = interface->cur_altsetting; 

for (i = 0; i < iface_desc->desc.bNumEndpoints; ++i)} { 
endpoint = &iface. desc->endpoint[i] .desc; 


if {!dev->bulk_in endpointAddr g&& 
(endpoint->bEndpointAddress & USB_DIR_IN) && 
((endpoint->bmattributes & USB_ ENDPOINT _XFERTYPE_MASK) 

= = USB_ENDPOINT XFER_ BULK)) ( 

/* 发 现 一 个 批量 IN 类 型 的 端点 */ 
buffer_size = endpoint->wMaxPacketSize; 
dev->bulk_in size = buffer size; 
dev->bulk_in_endpointAddr = endpoint->bEndpointAddress; 
dev->bulk_in buffer = kmalloc (buffer_size, GFP. KERNEL); 
if (!dev->bulk_in_buftfer) { 

err("Could not allocate bulk_in_ buffer"); 

goto error; 


} 


if (!dev->bulk_out_endpointAddr g&& 
! {endpoint->bEndpointAddress & USB_DIR_IN) && 
{ (endpoint->bmAttributes & USB_ENDPOINT_XFERTYPE_MASK) 
= = USB_ENDPOINT XFER BULK)) { 
/* 发 现 一 个 批量 OUT 类 型 的 端点 */ 
dev->bulk_out_endpointAddr = endpoint->bEndpointAddress; 
} 


} 
if {1!(dev->bulk_in_endpointAddr && dev->bulk_out_endpointaddar)) { 


err{("Could not find both bulk-in and bulk-out endpoints"); 
goto error:; 
} 


该 代码 块 首先 循环 访问 该 接口 中 存在 的 每 一 个 端点 ,赋予 该 端点 结构 体 的 局 部 指针 以 使 
稍 后 的 访问 更 加 容易 : 
for (i = 0; i < iface_desc->desc.bNumEndpoints; ++i) { 
endpoint = &iface_desc->endpoint [i] .desc; 
然后 , 在 我 们 有 了 一 个 端点 , 而 还 没有 发 现 批 量 IN 类 型 的 端点 时 , 查看 该 端点 的 方向 是 
否 为 IN。 这 可 以 通过 检查 位 掩 码 USB_DIR_IN 是 否 包含 在 bEndpointAddress 端 点 
变量 中 来 确定 。 如 果 是 的 话 ， 我 们 测定 该 端点 类 型 是 否 批量 ， 这 通过 首先 以 
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USB_ENDPOINT_XFERTYPE_MASK 位 掩 码 来 取 bmAttributes 变 量 的 值 , 然后 检查 
它 是 否 和 USB_ENDPOINT._XFER_BULK 值 匹配 来 完成 : 


if (!dev->bulk_in_endpointAddr && 
{endpoint->bEndpointAddress & USB DIR_IN) && 
{ {endpoint->bmAttributes & USB_ENDPOINT_XFERTYPE_MRASK) 
= = USB_ENDPOINT_XFER_BULK) ) { 


如 果 所 有 这 些 检测 都 通过 了 , 驱动 程序 就 知道 它 已 经 发 现 了 正确 的 端点 类 型 ,可 以 把 该 
端点 的 相关 信息 保存 到 一 个 局 部 结构 体 中 ， 以 便 稍 后 使 用 它 来 和 端点 进行 通信 : 


/* 发 现 一 个 批量 IN 类 型 的 端点 */ 
buffer_size = endpoint->wMaxPacketSize; 
dev->bulk_in size = buffer_size; 
dev->bulk_in_endpointAddr = endpoint->bEndpointAdgdress; 
dev->bulk_in. buffer = kmalloc{buffer_ size, GFP._KERNEL); 
if (ldev->bulk_in_buffer) { 

err{"Could not allocate bulk_in_buffer"); 

goto error; 
} 


因为 USB 驱动 程序 需要 在 设备 生命 周期 的 稍 后 时 间 获 取 和 该 struct usb_interface 
相关 联 的 局 部 数据 结构 体 ， 所 以 可 以 调用 usb_set_intfdata 函数 : 


/* 把 数据 指针 保存 到 这 个 接口 设备 中 */ 


usb_set_intfdata(interface, dev); 


该 函数 接受 一 个 指向 任意 数据 类 型 的 指针 , 把 它 保 存 到 struct usb_interface 结 构 体 
中 以 方便 后 面 的 访问 。 应 该 调用 usb_get_intfdata 函数 来 获取 数据 : 


struct usb_skel *dev; 

struct usb_interface *interface; 
int subminor; 

int retval = 0; 


subminor = iminor (inode); 


interface = usb_find_interface(&skel._driver, subminor); 
if {!interface) { 
err ("%S - error, can't find device for minor %d", 
__FUNCTION__, subminor); 
retval = -ENODEV; 
goto exit; 
} 


dev = usb get_intfdatalinterface); 
it (!dev) { 

retval = -ENODEV; 

goto exit; 


USB 驱动 程序 349 











usb_get_intfdata 通常 在 USB 驱动 程序 的 打开 函数 和 断 开 函数 中 被 调用 。 正 是 归功 于 这 
两 个 函数 ,USB 驱 动 程序 不 需要 维护 一 个 静态 的 指针 数组 来 存储 系统 中 所 有 当前 设备 的 
设备 结构 体 。 对 设备 信息 的 非 直接 引用 使 得 任何 USB 驱 动 程序 都 可 以 支持 数量 不 限 的 设 
备 。 


如 果 USB 驱动 程序 没有 和 处 理 设 备 与 用 户 交 互 (例如 输入 、tty、 视 频 等 等 ) 的 另 一 种 
类 型 的 子 系统 相关 联 , 驱动 程序 可 以 使 用 USB 主 设备 号 , 以 便 在 用 户 空间 使 用 传统 的 字 
符 驱 动 程序 接口 如果 要 这 么 做 ,USB 驱 动 程序 必须 在 探测 函数 中 调用 wsb_re8ister_dev 
函数 来 把 设备 注册 到 USB 核 心 。 只 要 该 函数 被 调用 , 就 要 确保 设备 和 驱动 程序 都 处 于 可 
以 处 理 用 户 访问 设备 的 要 求 的 恰当 状态 。 
/* 现在 可 以 注册 设备 了 、 它 已 准备 好 了 */ 
retval = usb_register_dqev(interface，&Sskel_clas5) : 
if (retval) { 
/* 某 些 情况 造成 我 们 不 能 注册 该 驱动 程序 */ 
err{"Not able to get a minor for this device."); 
usb set_intfdatal(interface, NULL); 


goto error; 


usb_register_dev 明 数 需 要 一 个 指向 struct usb_interface 的 指针 和 一 个 指向 struct 
usb_class_driver 结构 的 指针 。 这 个 struct usb_class_driver 用 于 定义 许多 不 同 
的 参数 ， 在 注册 一 个 次 设备 号 时 USB 驱动 程序 需要 USB 核心 知道 这 些 参 数 。 该 结构 体 
包括 如 下 的 变量 : 


char *name 
sysfs 用 来 描述 设备 的 名 字 。 前 导 路 径 名 ,如 果 存 在 的 话 ， 只 用 在 devfs 中 , 本 书 不 
涉及 该 内 容 。 如果 设备 的 编号 需要 出 现在 名 字 中 , 名 字 字 符 串 应 该 包含 字符 $d。 例 
如 , 为 了 创建 devfs 名 字 usby/fool 和 sysfs 类 型 名 字 foo1, 名 字 字 符 串 应 该 设置 
为 usb/foo%d。 


struct file operations *fops; 
指向 struct file_operations 的 指针 ， 驱 动 程序 定义 该 结构 体 ， 用 它 来 注册 为 
字符 设备 。 有 关 该 结构 体 的 更 多 情况 请 参阅 第 三 章 。 


mode_t mode; 
为 该 驱动 程序 创建 的 devfs 文件 的 模式 ; 在 其 他 情况 下 没有 使 用 。 该 变量 的 一 个 典 
型 设置 是 S_IRUSR 和 Ss_IWUSR 值 的 组 合 ， 只 提供 了 设备 文件 属 主 的 读 和 写 访问 
权限 。 

int minor_base; 


这 是 为 该 驱动 程序 指派 的 次 设备 号 范围 的 开始 值 。 和 该 驱动 程序 相关 联 的 所 有 设备 
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都 是 以 唯一 的 、 以 该 值 开 始 的 递增 的 次 设备 号 来 创建 的 。 任 何 时 刻 只 能 允许 有 16 
个 设备 和 该 驱动 程序 相关 联 , 除非 内 核 的 CONFIG_USB_DYNAMIC_MINORS 配 置 
选项 被 打开 。 如 果 如 此 , 该 变量 将 被 忽略 , 以 先 来 先 办 的 方式 来 分 配 设备 的 所 有 次 
设备 号 。 建 议 打 开 了 该 选项 的 系统 使 用 类 似 udev 这 样 的 程序 来 管理 系统 中 的 设备 
节点 ， 因 为 一 个 静态 的 rdev 树 不 会 工作 正常 。 


当 一 个 USB 设 备 被 断 开 时 , 和 该 设备 相关 联 的 所 有 资源 都 应 该 被 尽 可 能 地 清理 掉 。 在 此 
时 , 如 果 已 经 在 探测 函数 中 调用 了 usb_register_dey 来 为 该 USB 设备 分 配 一 个 次 设备 号 
的 话 ， 必 须 调用 usb_deregister_dev 函数 来 把 次 设备 号 交还 USB 核心 。 


在 断 开 函数 中 , 从 接口 获取 之 前 调用 usb_sert_intfdata 设 置 的 任何 数据 也 是 很 重要 的 。 然 
后 设置 struct usb_interface 结构 体 中 的 数据 指针 为 NULL、 以 防止 任何 不 适当 
的 对 该 数据 的 进行 的 错误 访问 。 


static void skel_disconnect (struct usb., interface *interface) 
{ 


struct usb_skel *dev; 
int minor = interface->minor; 


/* 防止 skel_open() 和 skel_disconnect() 竞 争 */ 
lock_kernel{); 


dev = usb. get_ intfdata(interface); 
usb_set_intfdata(linterface, NULL); 


/* 返回 次 设备 号 */ 


usb_ deregister dev{interface, &skel_class); 
unlock_kernel (); 


/* 减 小 使 用 计数 */ 
kref put (gdev->kref, skel_delete); 


info("*USB Skeleton #%d now disconnected", minor); 
} 
注意 上 述 代码 片段 中 的 lock_kernel 调 用 。 它 获取 了 大 内 核 锁 , 以 使 断 开 回调 函数 在 试图 
获取 一 个 正确 的 接口 数据 结构 体 指针 时 不 会 和 打开 调用 遭遇 竞 态 ,因为 打开 函数 是 在 大 
内 核 锁 被 获取 的 情况 下 被 调用 的 , 如 果断 开 函 数 也 获取 了 同一 个 锁 , 驱动 程序 中 只 有 一 
个 部 分 可 以 访问 和 设置 接口 数据 指针 。 


就 在 USB 设备 的 断 开 回调 函数 被 调用 之 前 ， 所 有 正在 传输 到 设备 的 urb 都 被 USB 核心 
取消 ， 因 此 驱动 程序 不 必要 对 这 些 urb 显 式 地 调用 usb_kill_urb。 在 USB 设备 已 经 被 断 
开 之 后 ， 如果 驱动 程序 试图 通过 调用 usb_submit_urb 来 担 交 一 个 urb 给 它 , 提交 将 会 失 
败 并 返回 错误 值 -EPIPE。 
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提交 和 控制 urb 


当 驱 动 程序 有 数据 要 发 送 到 USB 设备 时 (典型 地 发 生 在 驱动 程序 的 写 国 数 中 )、 必 须 分 
配 一 个 urb 来 把 数据 传输 给 设备 : 


Urb = usb alloc urb(0, GFP_KERNEL); 
EDT 

retval = -ENOMEM; 

goto error; 


} 


在 urb 被 成 功 地 分 配 之 后 ， 还 应 该 创建 一 个 DMA 缓冲 区 来 以 最 高 效 的 方式 发 送 数据 到 
设备 ， 传 递 给 驱动 程序 的 数据 应 该 复制 到 该 缓冲 区 中 : 


buf = Usb_buffter_alloclfdqev->udqev，count，GFP_KERNEL ，&uUrb->transter_dma) : 
oh 
retval = -ENOMEM; 
goto error; 
} 
if (copy_from user(buf, user_buffer, count})) { 
retval = -EFAULT; 
goto error; 
} 


一 旦 数据 从 用 户 空 间 正确 地 复制 到 了 局 部 缓冲 区 中 , urb 必须 在 可 以 被 提交 给 USB 核心 
之 前 被 正确 地 初始 化 : 


/* 正确 地 初始 化 urb */ 
usb_fill_ bulk_urbl(urb, dev->udev, 
usb_sndbulkpipe (dev->udev, dev->bulk_out_endpointAddr), 
buf, count, skel_write_bulk_callback, dev); 
urb->transfer_flags |= URB_NO_TRANSFER DMA MAP; 


现在 urb 被 正确 地 分 配 了 , 数据 被 正确 地 复制 了 , urb 被 正确 地 初始 化 了 , 它 就 可 以 被 提 
交 给 USB 核心 以 传输 到 设备 : 
/* 把 数据 从 批量 端口 发 出 */ 
retval = usb submit_urb{urb, GFP_KERNEL}; 
if (retval)} 1 
err{"%s - failed submitting write urb, error %d", __FUNCTION__, retval); 
goto error; ; 


} 


在 urb 被 成 功 地 传输 到 USB 设备 之 后 (或 者 传输 中 发 生 了 某 些 事情 )，urb 回调 函数 将 
被 USB 核 心 调用 。 在 我 们 的 例子 中 , 我们 初始 化 urb, 使 之 指向 skel_write_bulk_callback 
函数 ， 它 就 是 被 调用 的 函数 : 


static void skel_write_bulk_callback(struct urb *urb, struct pt_regs *regs) 
{ 
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/* sync/async 解 链接 故障 不 是 错误 */ 
if {urb->status && 
! {urb->status 
urb->status -ECONNRESET || 
urb->status -ESHUTDOWN)) { 
dbg{"%s - nonzero write bulk status received: %d", 
__FUNCTION__, urb->status); 


-ENOENT | | 


中 机 
| 


} 
/* 释放 已 分 配 的 缓冲 区 */ 


usb_buffer free(lurb->dev, urb->transfer buffer_length, 
urb->transfer buffer, urb->transfer dma); 
} 


回调 函数 中 做 的 第 一 件 事情 是 检查 urb 的 状态 ， 以 确定 该 urb 是 否 已 经 成 功 地 结束 。 错 
误 值 ，-ENOENT、-ECONNRESET 和 -ESHUTDOWN 不 是 真 的 传输 错误 ， 只 是 报告 一 次 
成 功 的 传输 的 相关 情况 (请 参考 “struct urb” 一 节 中 描述 的 urb 可 能 的 错误 的 列表 )。 之 
后 回调 函数 释放 传输 时 分 配给 该 urb 的 缓冲 区 。 


当 urb 回调 函数 正在 运行 时 另 一 个 urb 被 提交 到 设备 是 很 常见 的 。 这 对 于 发 送 流 式 数据 
到 设备 很 有 用 。 不 要 忘 了 urb 回调 销 数 是 运行 在 中 断 上 下 文中 的 ， 因 此 它 不 应 该 进行 任 
何 内 存 分 配 、 持 有 任何 信号 量 或 者 做 任何 其 他 可 能 导致 进程 睡眠 的 事情 。 当 在 回调 函数 
内 提交 一 个 urb 时 , 如 果 它 在 提 父 过 程 中 需要 分 配 新 的 内 存 鼎 的 话 , 使 用 GFP_ATOMIC 
标志 来 告诉 USB 核心 不 要 睡眠 。 


不 使 用 urb 的 USB 传输 


有 时候 USB 驱动 程序 只 是 要 发 送 或 者 接收 一 些 简 单 的 USB 数据 ， 而 不 想 把 创建 一 个 
struct urb、 初始化 它 、 然 后 等 待 该 urb 接 收 函 数 运行 这 些 麻烦 事 都 走 一 遍 。 有 两 个 
提供 了 更 简单 接口 的 函数 可 以 使 用 。 


usb_bulk_msg 
usb_buik_msg 创建 一 个 USB 批量 urb, 把 它 发 送 到 指定 的 设备 , 然后 在 返回 调用 者 之 前 
等 待 它 的 结束 。 它 定义 为 : 

int usb_bulk_msg(struct usb_device *usb_dev, unsigned int pipe, 


void *data, int len, int *actual_length, 
int timeout); 


该 函数 的 参数 为 : 


struct usb_device *usb_dev 


指向 批量 消息 所 发 送 的 目标 USB 设备 的 指针 。 
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unsigned int pipe 
该 批量 消息 所 发 送 的 目标 USB 设备 的 特定 端点 。 该 值 是 调用 usb_sndbulkpipe 或 
usb_rcvbulkpipe 来 创建 的 。 

void *data 


如 果 是 一 个 OUT 端 点 , 它 是 指向 即将 发 送 到 设备 的 数据 的 指针 。 如 果 是 一 个 IN 端 
点 ， 它 是 指向 从 设备 读 取 的 数据 应 该 存放 的 位 置 的 指针 。 


int len 
data 参数 所 指 缓冲 区 的 大 小 。 

int *actual_length 
指向 保存 实际 传输 字 节 数 的 位 置 的 指针 ,至 于 是 传输 到 设备 还 是 从 设备 接收 取决 于 
端点 的 方向 。 


int timeout 
以 jiffies 为 单位 的 应 该 等 待 的 超时 时 间 。 如 果 该 值 为 0, 该 函数 将 一 直 等 待 消 息 的 
结束 。 


如 果 函 数 调用 成 功 , 返回 值 为 0; 否则 , 返回 一 个 负 的 错误 值 。 该 错误 值 和 “struct urb” 
一 节 中 描述 的 urb 错 误 编号 相 匹配 。 如 果 成 功 , actual_length 参 数 包 含 从 该 消息 发 
送 或 者 接收 的 字 节 数 。 


下 面 是 一 个 使 用 该 函数 调用 的 例子 : 
/* 进行 阻塞 的 批量 读 以 从 设备 获取 数据 */ 


retval = usb_bulk_msg (dev->udev, 
usb_rcvbulkpipe (dev->udev, dev->bulk_in_endpointAddr), 
dev->bulk_in_buffer, 
min{({dev->bulk_in_size, count}), 
&count, HZ*10); 


/* 如 果 读 成 功 ,复制 数据 到 用 户 空间 */ 
if (!retval) { 
if (copy_to_user{buffer, dev->bulk_in_buffer, count)) 
retval = -EFAULT; 
else 
retval = count; 
} 


该 例子 说 明了 一 个 从 IN 端点 的 简单 的 批量 读 。 如 果 读 取 成 功 , 数据 被 复制 到 用 户 空间 。 
通常 在 USB 驱动 程序 的 读 函 数 中 完成 这 个 工作 。 


不 能 在 一 个 中 断 上 下 文中 或 者 在 持 有 自 旋 锁 的 情况 下 调用 usb_bulk_msg 函数 。 同样, 该 
函数 不 能 被 任何 其 他 函数 取消 , 因此 使 用 它 的 时 候 要 小 心 ; 确保 驱动 程序 的 断 开 函数 了 
解 足够 的 信息 ， 在 允许 自身 从 内 存 中 被 卸载 之 前 等 待 该 调用 的 结束 。 
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Usb_control _msg 


除了 人 允许 驱动 程序 发 送 和 接收 USB 控制 消息 之 外 ，usb_control_msg 函数 的 运作 和 
usb_bulk_msg 国 数 类 似 : 


int usb_control_msg(struct usb_device *dev, unsigned int pipe, 


__u8 request, __u8 requesttype, 
__ul6 value，__ul16 index, 
void *data, __ul6 size, int timeout); 


该 函数 的 参数 和 usb_bulk_msg 很 相似 ,但 有 几 个 重要 的 区 别 : 


struct usb_device *dev 
指向 控制 消息 所 发 送 的 目标 USB 设备 的 指针 。 
unsigned int pipe 
该 控制 消息 所 发 送 的 目标 USB 设备 的 特定 端点 。 该 值 是 调用 usb_sndctrlpipe 或 
usb_rcvctrlpipe 来 创建 的 。 
__u8 request 
控制 消息 的 USB 请 求 值 。 
__u8 requesttype 
控制 消息 的 USB 请 求 类 型 值 。 
__ul6 value 
控制 消息 的 USB 消息 值 。 
__ul6 index 
控制 消息 的 USB 消息 索引 值 。 
void *data 
如 果 是 一 个 OUT 端 点 , 它 是 指向 即将 发 送 到 设备 的 数据 的 指针 。 如 果 是 一 个 IN 端 
点 ， 它 是 指向 从 设备 读 取 的 数据 应 该 存放 的 位 置 的 指针 。 
__udl6 size. 
data 参数 所 指 缓 促 区 的 大 小 。 
int timeout 
以 jiffies 为 单位 的 应 该 等 待 的 超时 时 间 。 如 果 该 值 为 0,， 该 函数 将 一 直 等 待 消息 的 
结束 。 


如 果 函 数 调用 成 功 , 它 返回 传输 到 设备 或 者 从 设备 读 取 的 字 节 数 ; 如 果 不 成 功 , 它 返 回 
一 个 负 的 错误 值 。 
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request、requesttype、value 和 index 参数 都 直接 映射 到 USB 规范 的 USB 控 
制 消 息 定义 处 。 关 于 这 些 参 数 的 有 效 值 和 如 何 使 用 ， 请 参考 USB 规范 的 第 九 章 。 


和 usb_bulk_msg 函数 一 样 ,usb_control_msg 函数 不 能 在 一 个 中 断 上 下 文中 或 者 持 有 自 
旋 锁 的 情况 下 调用 。 同样 , 该 函数 不 能 被 任何 其 他 函数 取消 , 因此 使 用 它 的 时 候 要 小 心 ; 
确保 驱动 程序 的 断 开 函 数 了 解 足够 的 信息 ,在 允许 自身 从 内 存 中 被 卸载 之 前 等 待 该 调用 
的 结束 。 


其 他 USB 数据 函数 


USB 核心 中 的 许多 辅助 函数 可 以 用 来 从 所 有 USB 设备 中 获取 标准 的 信息 。 这 些 函 数 不 
能 在 一 个 中 断 上 下 文中 或 者 持 有 自 旋 锁 的 情况 下 调用 。 


usb_get_descriptor 函数 从 指定 的 设备 获取 指定 的 USB 描述 符 。 该 函数 定义 为 : 


int usb get_descriptor{(struct usb_device *dev, unsigned char type, 
unsigned char index, void *buf, int size); 


USB 驱动 程序 可 以 使 用 该 函数 来 从 struct usb_device 结 构 体 中 获取 任何 没有 存在 于 
已 有 struct usb_device 和 struct usb_interface 结 构 体 中 的 设备 描述 符 ， 例 如 音 
频 描述 符 或 者 其 他 的 类 型 特定 信息 。 该 函数 的 参数 为: 


struct usb_device *usb_dqev 
指向 想 要 获取 描述 符 的 目标 USB 设备 的 指针 。 


unsigned char type 
描述 符 的 类 型 。 该 类 型 在 USB 规范 中 有 描述 ， 可 以 是 下 列 类 型 中 的 一 种 : 


USB_DT_DEVICE 
USB_DT_CONFIG 
USB_DT_STRING 
USB_DT_INTERFACE 
USB_DT_ENDPOINT 
USB_DT_DEVICE_QUALIFIER 
USB_DT_OTHER_SPEED_CONFIG 
USB_DT_INTERFACE_POWER 
USB_DT_OTG 

USB_DT_DEBUG 
USB_DT_INTERFACE_ASSOCIATION 
USB_DT_CS_DEVICE 
USB_DT_CS_CONFIG 
USB_DT_CS_STRING 
USB_DT_CS_INTERFACE 
USB_DT_CS_ENDPOINT 
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unsigned char index 

应 该 从 设备 获取 的 描述 符 的 编号 。 
void *buf 

指 问 复 制 描述 符 到 其 中 的 缓冲 区 的 指针 。 
int size 


buf 变量 所 指 内 存 的 大 小 。 


如 果 该 函数 调用 成 功 , 它 返 回 从 设备 读 取 的 字 节 数 。 否则 ， 它 返回 一 个 由 该 函数 调用 的 
底层 的 usb_control_msg 函数 返回 的 一 个 负 的 错误 值 。 


usb_get_descriptor 调用 更 常用 于 从 USB 设备 获取 一 个 字符 串 。 因 为 这 很 常见 ， 所 以 提 
供 了 一 个 名 为 usb_get_string 的 辅助 国 数 来 完成 该 工作 : 


int usb_get_string(struct usb_device *dev, unsigned short langid, 
unsigned char index, void *buf, int size); 
如 果 成 功 , 该 函数 返回 从 设备 接收 的 字符 串 的 字 节 数 。 否则, 它 返回 一 个 由 该 函数 调用 
的 底层 的 usb_control_msg 函数 返回 的 一 个 负 的 错误 值 。 


如 果 该 函数 调用 成 功 ， 它 返回 一 个 以 UTF-16LE 格式 (Unicode， 每 个 字符 16 位 ， 小 端 
字 节 序 ) 编码 的 字符 串 , 保存 在 buf 参 数 所 指 的 缓冲 区 中 。 因为 这 种 格式 不 是 很 有 用 , 有 
另 一 个 名 为 usb_siring 的 函数 返回 从 USB 设备 读 取 的 已 经 转换 为 1 SO 8859-1 格式 的 字 
符 串 。 这 种 字符 集 是 Unicode 的 一 个 8 位 的 子 集 ， 是 英语 和 其 他 西欧 语言 字符 串 的 最 常 
见 格式 。 因 为 它 是 USB 设备 的 字符 串 的 典型 格式 ， 建 议 使 用 usb_string 函数 而 不 是 
usb_get_string 国 数 。 


快速 参考 
本 节 总 结 本 章 中 介绍 的 符号 : 
#include <linux/usb.h> 


和 USB 相关 的 所 有 内 容 所 在 的 头 文件 。 所 有 的 USB 设备 驱动 程序 都 必须 包括 该 文 
件 。 
struct usb_driver; 


描述 USB 驱动 程序 的 结构 体 。 


struct usb_device_id; 


描述 该 驱动 程序 支持 的 USB 设备 类 型 的 结构 体 。 
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int USsb_register (Struct usb_driver *d); 
void usb deregister{struct usb driver *d); 


用 于 往 USB 核心 注册 和 注销 USB 驱动 程序 的 未 数 。 


struct usb device *interface_to usbdev(struct usb_interface *intf); 
从 一 个 struct usb_interface * 获 取 一 个 控制 的 struct usb_device *。 


struct usb_ device; 

控制 整个 USB 设备 的 结构 体 。 
struct usb_interface; 

主要 的 USB 设备 结构 体 ， 所 有 的 USB 虹 动 程序 都 用 它 来 和 USB 核心 进行 通信 。 
void usb._set_intfdata(struct usb_interface *intf, void *data); 


void *usb get_intfdata(struct USb_interface *intf); 


用 于 设置 和 获取 struct usb_interface 内 私有 数据 指针 段 的 函数 。 


struct usb class_driver; 
描述 了 想 要 使 用 USB 主 设备 号 和 用 户 空间 程序 进行 通信 的 USB 驱动 程序 的 结构 
体 。 


int usb_register_dev(Struct usb_interface *intf, struct usb class Griver 
*class_driver); 
void usb deregister dev (struct usb_interface *intf, struct usb_class_driver 
*class_driver); 
用 于 注册 和 注销 特定 的 struct usb_interface * 结 构 体 的 函数 ,使 用 一 个 struct 
usb_class_driver * 结 构 体 。 


struct urb; 


描述 一 个 USB 数据 传输 的 结构 体 。 


struct urb *usb alloc urbl(int iso packets, int mem flags); 
void usb_free urb(struct urb *urb); 


用 于 创建 和 销毁 一 个 struct urb * 的 函数 。 


int usb_submit_urb(struct urb *urb, int mem flags); 
int usb_kilil_urbl(lstruct urb *urb); 
int usb _unlink urb(struct urb *urb); 


用 于 开始 和 终止 一 个 USB 数据 传输 。 
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void usb_fil1_int_urb(struct urb *urb, struct Usb_dqevice *dqev，unsigned int 
pipe, void *transfer buffer, int buffer_length, usb complete t complete, 
void *context, int interval); 

void usb_fill bulk urbl(struct urb *urb, struct usb Gevice *dev, unsigned int 
pipe, void *transfer buffer, int buffer_ length, usb_ complete_t conmplete, 
void *context); 

void usb_ fill control urbl(struct urb *urb, struct usb dGevice *dev, unsigned 
int pipe, unsigned char *setup_ packet, void *transfer buffer, int 
buffer_ length, usb_complete t conplete, void *context); 

用 于 在 一 个 struct urb 被 提交 到 USB 核心 之 前 对 它 进行 初始 化 的 函数 。 

int usb bulk_msg{(struct usb device *usb dev, unsigned int pipe, void *data, 
int len, int *actual_ length, int timeout); 

int usb_control_msg (struct usb_device *dev, unsigqned int pipe，__u8 request, 
__u8 requesttype, .__u16 value, __ul6 index, void *data, __ul6 size, 


int timeout); 


用 于 在 不 使 用 struct urb 的 情况 下 发 送 或 接收 USB 数据 的 函数 。 
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Linux 设备 模型 














在 内 核 2.5 的 开发 周期 中 需要 完成 的 一 个 目标 是 : 为 内 核 建立 起 一 个 统一 的 设备 模型 。 在 
以 前 的 内 核 中 没有 独立 的 数据 结构 用 来 让 内 核 获得 系统 整体 配合 的 信息 。 尽 管 缺乏 这 些 
信息 , 在 许多 时 候 还 是 能 工作 正常 。 然 而 , 随 着 拓扑 结构 越 来 越 复杂 ,以 及 要 支持 诸如 
电源 管理 等 新 特性 的 需求 , 向 新 版 本 的 内 核 明确 提出 了 这 样 的 要 求 : 需要 有 一 个 对 系统 
结构 的 一 般 性 抽象 描述 。 


2.6 版 的 设备 模型 提供 了 这 样 的 抽象 。 现 在 内 核 使 用 该 抽象 支持 了 多 种 不 同 的 任务 ， 其 
中 包括 : 


电源 管理 和 系统 关机 
完成 这 些 工作 需要 一 些 对 系统 结构 的 理解 。 比 如 一 个 USB 宿主 适配器 ， 在 处 理 完 
所 有 与 其 连接 的 设备 前 是 不 能 被 关闭 的 .设备 模型 使 得 操作 系统 能 够 以 正确 的 顺序 
人 遍历 系统 硬件 。 

与 用 户 空间 通信 
sysfs 虚拟 文件 系统 的 实现 与 设备 模型 密切 相关 ， 并 且 向 外 界 展示 了 它 所 表述 的 结 
构 。 向 用 户 空间 所 提供 的 系统 信息 , 以 及 改变 操作 参数 的 接口 , 将 越 来 越 多 地 通过 
sysfs 实现 ， 也 就 是 说 ， 通 过 设备 模型 实现 。 


热 播 披 设 备 
越 来 越 多 的 计算 机 设备 可 被 动态 的 热 插 拔 了 , 也 就 是 说 , 外 围 设备 可 根据 用 户 的 需 
要 安装 与 卸载 。 内 核 中 的 热 插 拔 机 制 可 以 处 理 热 插 拔 设备 , 特别 是 能 够 与 用 户 空间 
进行 关于 插 拔 设备 的 通信 ， 而 这 种 机 制 也 是 通过 设备 模型 管理 的 。 

设备 类 型 
系统 中 的 许多 部 分 对 设备 如 何 连接 的 信息 并 不 感 兴趣 ,但 是 它们 需要 知道 哪些 类 型 
的 设备 是 可 以 使 用 的 ,设备 模 型 包括 了 将 设备 分 类 的 机 制 , 它 会 在 更 高 的 功能 层 上 
描述 这 些 设备 ， 并 使 得 这 些 设备 对 用 户 空间 可 见 。 
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对 象 生 俞 周期 
上 述 许多 功能 ,包括 热 插 拔 支持 和 sysfs， 使 得 内 核 中 创建 和 管理 对 象 的 工作 更 为 
复杂 .设备 模 型 的 实现 需要 创建 一 系列 机 制 以 处 理 对 象 的 生命 周期 、 对象 之 间 的 关 
系 ， 以 及 这 些 对 象 在 用 户 空间 中 的 表示 。 


Linux 设备 模型 是 一 个 复杂 的 数据 结构 。 举 个 例子 , 请 看 图 14-1。 图 中 显示 了 与 USB 鼠 
标 相关 联 的 设备 模型 的 一 小 部 分 (以 简化 的 形式 给 出 )。 在 图 的 中 央 , 可 以 看 到 核心 “ 设 
备 ” 树 的 一 部 分 ， 它 表明 了 鼠标 是 如 何 连接 到 系统 的 “总线 ” 树 跟踪 了 连接 到 每 个 总 
线 的 设备 ， 在 “类 ”下 的 子 树 更 关心 设备 所 提供 的 功能 ， 而 不 是 设备 是 如 何 连 接 的 。 即 
使 是 一 个 简单 的 系统 设备 模型 也 包含 了 几 百 个 如 这 个 图 那样 的 节点 ,这样 , 把 它们 全 部 
展现 出 来 需要 一 个 很 复杂 的 数据 结构 。 








14-1: 设备 模型 的 一 小 片段 


对 模型 的 大 部 分 来 说 ，Linux 设备 模型 代码 会 处 理 好 这 些 关 系 ， 而 不 把 它们 强加 给 驱动 
程序 的 作者 。 模型 隐藏 在 交互 背后 , 与 设备 模型 的 直接 交互 通常 由 总 线 级 逻辑 和 其 他 内 
核子 系统 来 处 理 。 其 结果 是 , 许多 驱动 程序 的 作者 可 完全 忽略 设备 模型 ,并 相信 设备 模 
型 能 处 理 好 它 所 负责 的 事情 。 


了 解 设备 模型 是 大 有 祥 益 的 。 设 备 模型 有 时 会 从 其 他 层 的 背后 暴露 出 来 ， 比如, 一般 性 
的 DMA 代码 (第 十 五 章 将 讨论 ) 使 用 了 device 结构 。 用 户 可 能 要 使 用 设备 模型 所 提供 
的 一 些 功能 , 比如 kobject 所 提供 的 引用 计数 及 其 相关 功能 。 通过 sysfs 与 用 户 空间 通信 
也 是 设备 模型 的 功能 ， 本 章 将 讨论 这 种 通信 的 工作 原理 。 


本 章 将 对 设备 模型 从 下 向 上 进行 讲述 ,设备 模型 的 复杂 性 使 得 从 较 高 的 层次 来 理解 是 相 


Linux 设备 模型 361 





对 困难 的 。 这 里 只 是 希望 读者 通过 了 解 底层 设备 组 件 的 工作 原理 , 并 在 知识 上 做 一 些 准 
备 ， 使 读者 能 理解 这 些 组 件 是 如 何 创建 一 个 大 型 结构 的 。 


对 于 许多 读者 来 说 , 本 章 的 内 容 可 以 认为 是 高 级 教材 , 在 阅读 第 一 遍 的 时 候 可 以 上 跳 过 本 
章 。 而 对 于 那些 十 分 想 了 解 Linux 设备 模型 是 如 何 工作 的 读者 ， 由 于 本 章 将 深入 研究 其 
底层 ， 因 此 十 分 值得 好 好 学 习 。 


kobject、kset 和 子 系统 


kobject 是 组 成 设备 模型 的 基本 结构 。 最初 它 只 是 被 理解 为 一 个 简单 的 引用 计数 , 但 是 随 
着 时 间 的 推移 ， 它 的 任务 越 来 越 多 、 因 此 也 有 了 许多 成 员 ,。 现在 kobject 结构 所 能 处 
理 的 任务 以 及 它 所 支持 的 代码 包括 : 


对象 的 引用 计数 
通常 , 一 个 内 核对 象 被 创建 时 , 不 可 能 知道 该 对 象 存活 的 时 间 。 跟踪 此 对 象 生命 周 
期 的 一 个 方法 是 使 用 引用 计数 。 当 内 核 中 没有 代码 持 有 该 对 象 的 引用 时 , 该 对 象 将 
结束 自己 的 有 效 生命 周期 ， 并 且 可 以 被 删除 。 

5ysfs 表述 
在 sysfs 中 显示 的 每 一 个 对 象 , 都 对 应 一 个 kobject, 它 被 用 来 与 内 核 交 互 并 创建 它 
的 可 见 表 述 。 

数据 结构 关联 
从 整体 上 看 ,设备 模型 是 一 个 友好 而 复杂 的 数据 结构 , 通过 在 其 间 的 大 量 连 接 而 构 
成 一 个 多 层次 的 体系 结构 。kobject 实现 了 该 结构 并 把 它们 聚合 在 一 起 。 


热 播 韦伯 起 处 理 
当 系 统 中 的 硬件 被 热 插 拔 时 ， 在 kobject 子 系统 控制 下 ， 将 产生 事件 以 通知 用 户 空 
间 。 
从 前 面 的 介绍 中 ， 读 者 可 能 会 得 出 kobject 是 一 个 复杂 结构 的 结论 。 的 确 是 这 样 的 。 每 
次 只 去 理解 该 结构 的 一 部 分 ， 这 样 对 了 解 该 结构 是 如 何 工 作 的 更 为 可 行 。 


kobject 基础 知识 


kobject 是 一 种 数据 结构 ， 它 定义 在 <linux/kobject.h> 中 。 在 这 个 文件 中 ,还 包括 了 
与 kobject 相关 结构 的 声明 ， 当 然 还 有 一 个 用 于 操作 kobject 对 象 的 函数 清单 。 
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嵌入 的 kobject 


在 深入 细节 研究 前 ， 花 点 时 间 了 解 kobject 的 工作 过 程 是 值得 的 。 如 果 回 头 看 看 kobject 
所 处 理 的 函数 清单 ,就 能 发 现 它们 都 是 一 些 代 表 其 他 对 象 完成 的 服务 。 换 名 话说 ,一 个 
kobject 对 自身 并 不 感 兴趣 ， 它 存在 的 意义 在 于 把 高 级 对 象 连接 到 设备 模型 上 。 


因此 ， 内 核 代码 很 少 (甚至 不 知道 ) 去 创建 一 个 单独 的 kobject 对 象 ， 相 反 ，kobject 用 
于 控制 对 大 型 域 (domain ) 相关 对 象 的 访问 。 为 了 达到 此 目的 ， 我 们 会 发 现 kobject 对 
象 被 嵌 人 到 其 他 结构 中 。 如 果 读 者 熟悉 使 用 面向 对 象 的 方法 思考 , kobject 可 以 被 认为 是 
最 顶层 的 基 类 , 其 他 类 都 是 它 的 派生 产物 。 kobject 实 现 了 一 系列 的 方法 , 对 自身 并 没有 
特殊 的 作用 , 但 是 对 其 他 对 象 却 非常 有 效 。 在 C 语 言 中 不 允许 直接 描述 继承 关系 , 因此 
使 用 了 诸如 在 一 个 结构 中 嵌入 另外 一 个 结构 的 技术 。 


举 一 个 例子 , 先 回 头 看 看 在 第 三 章 遇 到 过 的 cdev 结 构 。 该 结构 在 2.6.10 内 核 中 有 着 如 下 
形式 : 
struct cdev { 
struct kobject kobj; 
struct module *owner; 
struct file operations *ops; 
struct list_ head list; 
dev_t dev; 
unsigned int count; 
}; 
如 上 所 见 ，cdev 结构 中 供 人 了 kobject 结构 。 如 果 使 用 该 结构 ， 只 需要 访问 kobject 成 
员 就 能 获得 人马 人 的 koibect 对 象 。 使 用 kobject 的 代码 经 常 遇 到 相反 的 问题 : 对 于 给 定 的 
一 个 kobject 指针 ， 如 何 获得 包含 它 的 结构 指针 呢 ? 必须 要 抛弃 一 些 想 当然 的 想法 〈 比 
如 假设 kobject 处 于 包含 结构 开始 的 位 置 ) , 此 时 要 使 用 container_of 宏 (在 第 三 章 “open 
函数 ”一 节 中 有 过 讲述 )。 利 用 这 个 宏 , 对 包含 在 cdev 结 构 中 的 、 名 为 kp 的 kobject 结 
构 指 针 进 行 转换 的 代码 如 下 : 


struct cdev *device = container_of (kp, struct cdev, kobij); 


为 了 能 通过 kobject 指针 回 找 (back-casting) 包含 它 的 类 ,程序 员 经 常 要 定义 简单 的 宏 
完成 这 件 事 。 


kobject 的 初始 化 

为 了 在 编译 和 运行 时 对 结构 进行 初始 化 , 本 书 提供 了 大 量 的 简单 机 制 。 但 是 对 kobject 的 
初始 化 要 复杂 一 些 , 特别 是 当 kobject 所 有 的 函数 都 要 被 用 到 时 , 其 初始 化 更 加 复杂 。 不 
管 如 何 使 用 kobject， 有 一 些 步骤 是 必须 的 。 
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首先 是 将 整个 kobject 设置 为 0, 这 通常 使 用 memset 国 数 。 通常 在 对 包含 kobject 的 结构 
清 零 时 , 使 用 这 种 初始 化 方法 。 如 果 忘 记 对 kobject 的 清 零 初始 化 , 则 在 以 后 使 用 kobject 
时 ， 可 能 会 发 生 一 些 奇 任 的 错误 ， 因 此 ， 不 能 跳 过 这 一 步 又 。 


之 后 调用 kobject_init() 函 数 ， 以 便 设置 结构 内 部 的 一 些 成 员 : 


void kobject_init{struct kobject *kobj); 


kobject_init 所 做 的 一 件 事 情 是 设置 kobject 的 引用 计数 为 1。 然 而 仅仅 调用 kobject_init 
是 不 够 的 。 kobject 的 使 用 者 必须 至 少 设置 kobject 的 名 字 , 这 是 在 sysfs 入 口中 使 用 的 名 
字 。 如 果 仔 细 分 析 内 核 源 代码 , 可 以 发 现 直接 将 字符 串 拷 贝 到 kobject 的 name 成 员 的 代 
码 。 但 尽量 别 这 么 做 ， 而 应 该 使 用 : 


int kobject_set_name{struct kobject *kobj, const char *format, ek 


该 函数 使 用 了 类 似 printk 的 变量 参数 列表 。 不 管 是 否 相信 ,， 它 可 能 会 导致 该 操作 的 失败 
(因为 要 分 配 内 存 )， 因 此 ， 严 格 的 代码 应 该 检查 返回 值 ， 并 做 相应 的 处 理 。 


kobject 的 创建 者 需要 直接 或 者 间接 设置 的 成 员 有 : ktype、kset 和 parent。 在 本 章 
以 后 的 部 分 中 ， 将 对 它们 进行 讲解 。 


对 引用 计数 的 操作 
kobject 的 一 个 重要 函数 是 为 包含 它 的 结构 设置 引用 计数 。 只 要 对 象 的 引用 计数 存在 , 对 
象 (以 及 支持 它 的 代码 ) 就 必须 继续 存在 。 底 层 控 制 kobject 引用 计数 的 函数 有 : 
struct kobject *kobject_get (Struct kobject *kobj); 
void kobject_put{(sStruct kobject *kobj); 
对 kobject_get 的 成 功 调用 将 增加 kobject 的 引用 计数 , 并 返回 指向 kobject 的 指针 。 如 果 
kobject 已 经 处 于 被 销毁 的 过 程 中 , 则 该 调用 失败 ，kobject_8get 返 回 NULL。 必 须 检查 返 
回 值 ， 否 则 可 能 会 产生 麻烦 的 竞 态 。 


当 引 用 被 释放 时 , 调用 kobject_put 减 少 引 用 计数 , 并 在 可 能 的 情况 下 释放 该 对 象 。 请 记 
住 kobject_init 设 置 引用 计数 为 1, 所 以 当 创建 kobject 时 , 如 果 不 再 需要 初始 的 引用 , 就 
要 调用 相应 的 kobject_put 函数 。 


请 注意 ,在 许多 情况 下 ， 在 kobject 中 的 引用 计数 不 足以 防止 竞 态 的 产生 。 举 例 来 说 ， 
kobject (以 及 包含 它 的 结构 ) 的 存在 需要 创建 它 的 模块 继续 存在 。 当 kobject 继续 被 使 
用 时 , 不 能 卸载 该 模块 。 这 就 是 为 什么 在 前 面 看 到 的 caev 结构 中 包含 了 模块 指针 的 原 
因 。cdev 结构 中 引用 计数 的 实现 代码 如 下 : 
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struct kobject *cdqev_get (Struct cdev *p) 
{ 
struct module *owner = p->owner; 
struct kobject *kobj; 


if (owner && !Itry_module. get (owner)) 
return NULL; 
kobj = kobject_get (&p->kobj); 
if (!kobi) 
module_put (owner); 
return kobj; 
4 


创建 对 cdev 结构 的 引用 时 ， 也 需要 创建 包含 它 的 模块 的 引用 。 因 此 ，cdev_sget 使 用 
try_module_get 去 增加 模块 的 使 用 计数 。 如 果 操 作成 功 ， 使 用 kobject_get 增加 kobject 
的 引用 计数 。 当 然 这 个 操作 也 可 能 会 失败 , 因此 代码 需要 检查 kobject_get 的 返回 值 。 如 
果 调 用 失败 ， 则 要 释放 对 模块 的 引用 计数 。 


release 函数 和 kobject 类 型 

在 上 面 的 讨论 中 还 漏 掉 了 一 个 重要 内 容 , 就 是 当 引 用 计数 为 0 的 时 候 , kobject 将 采取 什 
么 操作 。 通 常 ， 创 建 kobject 的 代码 无 法 知道 这 种 情况 会 在 什么 时 候 发 生 。 如 果 能 知道 
的 话 ， 使 用 引用 计数 就 毫 无 意义 。 在 使 用 sysfs 的 时 候 ， 即 使 那些 可 预知 的 对 象 生 命 期 
也 会 变 得 更 为 复杂 ， 因 为 用 户 空间 程序 可 能 在 任意 时 间 内 引用 kobject 对 象 《比如 让 对 
应 的 sysfs 文件 保持 打开 状态 )。 


最 终结 果 是 ， 一 个 被 kobject 所 保护 的 结构 , 不 能 在 驱动 程序 生命 周期 的 任何 可 预知 的 、 
单独 的 时 间 点 上 被 释放 掉 。 但 是 当 kobject 的 引用 计数 为 0 时 , 上 述 代 码 又 要 随时 淮 备 运 
行 。 引 用 计数 不 为 创建 kobject 的 代码 所 直接 控制 。 因 此 当 kobject 的 最 后 一 个 引用 计数 
不 再 存在 时 ， 必 须 异 步 地 通知 。 


通知 是 使 用 kobject 的 release 方法 实现 的 ， 该 方法 通常 的 原型 如 下 : 


void my_object_releaselstruct kobject *kobj) 
‘ 
struct my_object *mine = container_ of (kobj, struct my_object, kobj); 


/* 对 该 对 象 执行 其 他 的 清除 工作 ， 然 后 …… */ 
kfree (mine); 
) 
有 一 个 要 点 不 能 被 忽略 : 每 个 kobject 都 必须 有 一 个 release 方 法 , 并 且 kobject 在 该 方法 
被 调用 前 必须 保持 不 变 (处 于 稳定 状态 )。 如 果 不 能 满足 这 些 限 制 ， 代 码 中 就 会 存在 缺 
陷 。 当 对 象 还 在 被 使 用 的 时 候 就 释放 它 ， 则 非常 危险 ; 或 者 , 在 最 后 一 个 引用 返回 前 释 
放 对 象 ， 该 操作 将 失败 。 
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有 意思 的 是 ,release 国 数 并 没有 包含 在 kobject 自身 内 . 相反 ,， 它 是 与 包含 kobject 的 结 
构 类 型 相关 联 的 。 一 种 称 为 ktype 的 kobj_type 数 据 结构 负责 对 该 类 型 进行 跟踪 。 下 
面 是 kobj_type 结构 的 声明 : 
struct kobj_type { 
void (*release) (struct kobject *); 
struct sysfs_ops *sysfs_ops; 
struct attribute **default_attrs; 
> 
在 kobj_type 的 release 成 员 中 , 保存 的 是 这 种 kobject 类 型 的 release 函数 指针 。 在 
本 章 中 还 要 讲解 另外 两 个 成 员 (sysfs_ops 和 default_attrs)。 


每 个 kobject 都 需要 有 一 个 相应 的 kobj_type 结 构 。 男人 困惑 的 是 , 可 以 在 两 个 不 同 的 
地 方 找到 这 个 结构 的 指针 。 在 kobject 结构 中 包含 了 一 个 成 员 ( 称 之 为 ktype) 保存 了 
该 指针 。 但 是 , 如果 kobject 是 kset 的 一 个 成 员 的 话 ，kset 会 提供 kobj_type 指 针 (在 
下 一 节 中 会 讲 到 kset)。 如 下 的 宏 : 


struct kobj_type *get_ktypelstruct kobject *kobj); 


查找 指定 kobject 的 kobj_type 指针 。 


kobject 层次 结构 、kset 和 子 系统 


通常 ， 内 核 用 kojbect 结构 将 各 个 对 象 连 接 起 来 组 成 一 个 分 层 的 结构 体系 ， 从 而 与 模型 
化 的 子 系统 相 匹配 。 有 两 种 独立 的 机 制 用 于 连接 : parent 指针 和 kset。 


在 kobject 结 构 的 parent 成 员 中 , 保存 了 另外 一 个 kobject 结 构 的 指针 , 这 个 结构 表 
示 了 分 层 结 构 中 上 一 层 的 节点 。 比 如 一 个 kobject 结构 表示 了 一 个 USB 设备 ， 它 的 
parent 指针 可 能 指向 了 表示 USB 集 线 器 的 对 象 , 而 USB 设 备 是 插 在 USB 集 线 器 上 的 。 


对 parent 指针 最 重要 的 用 途 是 在 sysfs 分 层 结构 中 定位 对 象 。 在 后 面 的 “低层 sysfs 操 
作 ” 一 节 中 ， 读 者 将 会 看 到 它 是 如 何 实现 的 。 


kset 

从 许多 角度 上 看 ，kset 像 是 kobj_type 结 构 的 扩充 。 一 个 kset 是 嵌 和 人 相同 类 型 结构 的 
kobject 集 合 。 但 kobj_type 结 构 关 心 的 是 对 象 的 类 型 ,而 kset 结 构 关心 的 是 对 象 的 聚 
集 与 集合 。 这 两 个 概念 是 分 立 的 。 这 样 同 种 类 型 的 对 象 可 以 出 现在 不 同 的 集合 中 。 


因此 kset 的 主要 功能 是 包容 ; 我 们 可 以 认为 它 是 kobject 的 顶层 容器 类 。 实 际 上 ， 在 每 
个 kset 内 部 ,包含 了 自己 的 kobject， 并 且 可 以 用 多 种 处 理 kobject 的 方法 处 理 kset。 需 
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要 注意 的 是 , kset 总 是 在 sysfs 中 出 现 ; 一 旦 设置 了 kset 并 把 它 添加 到 系统 中 , 将 在 sysfs 
中 创建 一 个 目录 。kobject 不 必 在 sysfs 中 表示 , 但 是 kset 中 的 每 一 个 kobject 成 员 都 将 在 
sysfs 中 得 到 表述 。 

创建 一 个 对 象 时 ， 通 常 要 把 一 个 kobject 添加 到 kset 中 去 。 这 个 过 程 有 两 个 步骤 。 先 把 
kobject 的 kset 成 员 要 指向 目的 kset， 然 后 将 kobject 传递 给 下 面 的 函数 : 

int kobject add(struct kobject *kobj); 

和 处 理 相似 的 函数 一 样 , 程序 员 应 该 意识 到 该 函数 可 能 会 失败 (如 果 失 败 , 将 返回 一 个 
负 的 错误 码 ) ， 并 对 此 做 出 相应 的 动作 。 内 核 提 供 了 一 个 方便 使 用 的 函数 : 


extern int kobject_register (struct kobject *kKkobj); 
该 函数 只 是 kobject_init 和 kobject_add 的 简单 组 合 。 


当 把 一 个 kobject 传 递 给 kobject_add 时 ， 将 会 增加 它 的 引用 计数 。 在 kset 中 包含 的 最 重 
要 的 内 容 是 对 象 的 引用 。 在 某 些 时 候 ， 可 能 不 得 不 把 kobject 从 kset 中 删除 ， 以 清除 引 
用 ; 使 用 下 面 的 函数 达到 这 个 目的 : 

void kobject_del(struct kobject *kobj); 


还 有 一 个 kobject_unregister 函数 ， 它 是 kobject_del 和 kobject_put 的 组 合 。 


kset 在 一 个 标准 的 内 核 链表 中 保存 了 它 的 子 节点 。 在 大 多 数 情况 下 ， 所 包含 的 kobject 会 
在 它们 的 parent 成 员 中 保存 kset (严格 地 说 是 其 内 代 的 kobject) 的 指针 。 因此 典型 的 情 
况 是 ，kset 和 它 的 kobject 的 关系 与 图 14-2 所 示 类 似 。 请 记 住 : 


。 ”在 图 中 所 有 被 包含 的 kobject， 实 际 上 是 被 嵌入 到 其 他 类 型 中 ， 甚至 可 能 是 其 他 的 


kset 。 


。 ”一 个 kobject 的 父 节 点 不 一 定 是 包含 它 的 kset (这 样 的 结构 非常 少见 )。 





图 14-2: 一 个 简单 的 kset 分 层 结构 
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kset 上 的 操作 
kset 拥有 与 kobject 相似 的 初始 化 和 设置 接口 。 下 面 是 这 些 函 数 : 


void kset_init{struct kset *kset); 

int kset_ add{struct kset *kset); 

int kset_register (Struct kset *kset),; 
void kset_unregister(struct kset *kset); 


在 大 多 数 情况 下 , 这 些 函 数 只 是 对 kset 中 的 kobject 结 构 调 用 类 似 前 面 kobject_ 的 函数 。 
为 了 管理 kset 的 引用 计数 ， 其 情况 也 是 一 样 的 : 


struct kset *kset_get(Struct kset *kset); 
void kset_put (struct kset *kset); 


一 个 kset 也 拥有 名 字 , 它 保 存在 内 嵌 的 kobject 中 。 因此 ,如 果 我 们 有 一 个 名 为 my_set 
的 kset， 可 使 用 下 面 的 函数 设置 它 的 名 字 : 


kobject_set_name(&my_set->kobj, "The name"); 


kset 中 也 有 一 个 指针 (在 ktype 成 员 中 ) 指向 kobj_type 结构 , 用 来 描述 它 所 包含 的 
kojbect。 该 类 型 的 使 用 优先 于 kobject 中 的 ktype。 因 此 在 典型 应 用 中 ，kobject 中 的 
ktype 成 员 被 设置 为 NULL。 因 为 kset 中 的 ktype 成 员 是 实际 上 被 使 用 的 成 员 。 


最 后 ，kset 包含 了 一 个 子 系统 指针 ( 称 之 为 subsys)。 因 此 现在 该 讲 一 讲 子 系统 了 。 


子 系统 
子 系统 是 对 整个 内 核 中 一 些 高 级 部 分 的 表述 。 子 系统 通常 (但 不 一 定 ) 显示 在 sysfs 分 
层 结构 中 的 顶层 。 内 核 中 的 子 系统 包括 block_subsys (对 块 设备 来 说 是 /sys/block)、 
devices_subsys (/sys/devices， 设 备 分 层 结构 的 核心 ) 以 及 内 核 所 知晓 的 用 于 各 种 
总 线 的 特定 子 系统 。 一 个 驱动 程序 的 作者 几乎 不 需要 创建 一 个 新 的 子 系统 。 如 果 想 这 么 
做 的 话 , 请 三 思 而 后 行 。 驱 动 程序 作者 最 终 要 做 的 是 添加 一 个 新 类 ,这 如 同 在 “类 ”一 
节 中 所 讲 的 那样 。 
下 面 的 简单 结构 表示 了 一 个 子 系统 : 
struct subsystem { 
struct kset kset; 
struct rw_semaphore rwsem; 


}; 
一 个 子 系统 其 实 是 对 kset 和 一 个 信号 量 的 封装 。 
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每 一 个 kset 都 必须 属于 一 个 子 系统 。 子 系统 的 成 员 将 帮助 内 核 在 分 层 结构 中 定位 kset， 
但 更 重要 的 是 ， 子 系统 的 rwsem 信号 量 被 用 于 串 行 访问 kset 内 部 的 链表 。 在 kset 结构 
中 ， 这 种 成 员 关系 被 表示 为 subsys 指针 。 因 此 通过 kset 结构 ， 可 以 找到 包含 kset 的 
每 一 个 子 系统 。 但 是 我 们 无 法 直接 从 subsystem 结构 中 找到 子 系统 所 包含 的 多 个 kset。 


通常 使 用 下 面 的 宏 声 明 subsystem: 


decl_subsys{name, struct kobj_type *type, 
Struct kset_ hotplug_ops *hotplug_ops); 
该 宏 使 用 传递 给 它 的 name 并 追加 _subsys, 然后 做 为 结构 名 而 创建 sybsystem 结 构 。 
该 宏 还 使 用 了 指定 的 type 和 hotplug._ops 初始 化 内 部 的 kset (在 本 章 后 面 的 部 分 将 
讲 到 热 插 拔 操作 ) 。 


子 系统 拥有 一 个 设置 和 销毁 的 函数 列表 : 


void subsystem initl(struct subsystem *subsys); 

int subsystem_register(struct subsystem *subsys); 
void subsystem unregister(struct subsystem *subsys); 
struct subsystem *subsys_get{struct subsystem *subsys) 
void subsys_put(struct subsystem *subsys); 


这 些 函 数 中 的 大 多 数 都 用 于 对 子 系统 中 的 kset 进行 操作 。 


低层 sysfs 操作 


kobject 是 隐藏 在 sysfs 虚拟 文件 系统 后 的 机 制 , 对 于 sysfs 中 的 每 个 目录 , 内 核 中 都 会 存 
在 一 个 对 应 的 kobject。 每 一 个 kobject 都 输出 一 个 或 者 多 个 属性 , 它们 在 kobject 的 sysfs 
目录 中 表现 为 文件 ,其 中 的 内 容 由 内 核 生成 。 这 部 分 内 容 揭 示 了 kobject 和 sysfs 在 底层 
是 如 何 交 互 的 。 


<linux/sysfs.h> 中 包含 了 sysfs 的 工作 代码 。 


只 要 调用 kobject_add， 就 能 在 sysfs 中 显示 kobject。 在 把 kobject 添加 到 kset 的 时 候 ， 
已 经 讨论 过 这 个 函数 了 ; 在 sysfs 中 创建 人 口 项 也 是 该 函数 的 功能 之 一 。 需 要 了 解 许 多 
知识 ， 才 能 理解 是 如 何 创建 sysfs 入 口 的 。 


。 ”kobject 在 sysfs 中 的 人 口 始终 是 一 个 目录 ， 因此， 对 kobject_add 的 调用 将 在 sysfs 
中 创建 一 个 目录 。 通常 这 个 目录 包含 一 个 或 多 个 属性 , 随后 将 讲 到 如 何 设 置 属性 。 

。 ”分 配给 kobject (使 用 kobject_set_name 函数 ) 的 名 字 是 sysfs 中 的 目录 名 。 这 样 ， 
处 于 sysfs 分 层 结 构 相 同 部 分 中 的 kobject 必须 有 唯一 的 名 字 。 分 配给 kobject 的 名 
字 必 须 是 合法 的 文件 名 : 不 能 包含 反 斜 枉 ， 并 且 强 烈 建议 不 要 使 用 空格 。 
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. sysfs 人 口 在 目录 中 的 位 置 对 应 于 kobject 的 parent 指针。 如 果 调 用 kobject_add 的 
时 候 ，parent 是 NULL， 它 将 被 设置 为 嵌入 到 新 kobject 的 kset 中 的 kobject， 这 样 ， 
sysfs 分 层 结构 通常 与 kset 创建 的 内 部 结构 相 匹 配 。 如 果 parent 和 kset 都 是 
NULL， 则 会 在 最 高 层 创建 sysfs 目录 ， 而 这 通常 不 是 我 们 所 期 望 的 。 


使 用 前 面 介绍 过 的 机 制 ， 可 以 使 用 kobject 在 sysfs 中 创建 空 目录 。 有 时 读者 可 能 想 做 一 
些 更 有 趣 的 事 ， 因 此 现在 需要 讲述 一 下 属性 的 实现 方法 。 


默认 属性 


当 创 建 kobject 的 时 候 ， 都 会 给 每 个 kobject 一 系列 默认 属性 。 这 些 属性 保存 在 
kobj_type 结构 中 。 下 面 是 该 结构 的 成 员 : 
struct kobj_type { 
void (*release) (struct kobject *); 
struct sysfs_ops *sysfs_ops; 
struct attribute **default_attrs; 
}; 
default_attrs 成 员 保存 了 属性 列表 , 用 于 创建 该 类 型 的 每 一 个 kobject, sysfs_ops 提 
供 了 实现 这 些 属性 的 方法 。 先 来 研究 default_attrs, 它 指向 了 一 个 包含 attribute 
结构 数组 的 指针 : 
struct attribute { 
char *name; 
struct module *owner; 
mode _t mode; 
je 
在 这 个 结构 中 ，name 是 属性 的 名 字 (在 kobject 的 sysfs 目录 中 显示 )，owner 是 指向 
模块 的 指针 (如果 有 的 话 ) ， 该 模块 负责 实现 这 些 属性 , mode 是 应 用 于 属性 的 保护 位 。 
对 于 只 读 属性 ，mode 通常 是 s_IRUGO。 如 果 属 性 是 可 写 的 ， 则 可 以 使 用 S_IWUSR 仅 
为 root 提 供 写 权 限 (操作 模式 的 宏 在 <linux/stat.h> 中 定义 )。default_attrs 链 表 中 的 
最 后 一 个 元 素 必须 用 零 填充 。 


default_attrs 数 组 说 明了 都 有 些 什么 属性 ,但 是 没有 告诉 sysfs 如 何 真正 实现 这 些 属 
性 。 这 个 任务 交 给 了 kobj_type->sysfs_ops 成 员 ， 它 所 指向 的 结构 定义 如 下 : 


struct sysfs_ops { 
ssize_t (*show) {struct kobject *kobj, struct attribute *attr, 
char *buffer); 
ssize_t (*store) (struct kobject *kobj, struct attribute *attr, 
const char *buffer, size_t size); 
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当 用 户 空间 读 取 一 个 属性 时 ， 内 核 会 使 用 指向 kobject 的 指针 和 正确 的 属性 结构 来 调用 
Show 方法 。 该 方法 将 把 指定 的 值 编码 后 放 人 缓冲 区 ,然后 把 实际 长 度 做 为 返回 值 返回 。 
请 注意 不 要 越界 ( 它 有 PAGE_SIZE 个 字 节 大 )。sysfs 的 约定 要 求 每 个 属性 都 要 包含 一 
个 单个 的 人 眼 可 阅读 的 值 。 如 果 要 返回 大 量 的 信息 ， 则 需要 把 它 拆 分 成 多 个 属性 。 


也 可 以 对 所 有 的 kobject 的 属性 使 用 同一 个 show 方 法。 传递 给 该 函数 的 attr 指针 可 以 
用 来 判断 所 请 求 的 是 哪个 属性 。 一 些 show 方法 包含 一 系列 对 属性 名 的 检查 。 其 他 的 实 
现 方法 会 把 attribute 结 构 檬 人 到 其 他 结构 中 ,而 在 那些 结构 中 包含 了 需要 返回 的 属性 
值 信息 ,在 这 种 情况 下 ， 可 在 show 方法 中 使 用 container_of， 以 获得 嵌入 结构 的 指针 。 


store 函 数 与 此 类 似 ; 它 将 对 保存 在 缓冲 区 中 的 数据 解码 (在 size 中 保存 了 数据 的 长 度 ， 
该 长 度 不 能 超过 PAGE_SIZE), 并 调用 各 种 实用 的 方法 保存 新 值 , 并 且 返 回 实际 解码 的 
字 节 数 。 只 有 当 拥 有 属性 的 写 权 限时 ,才能 调用 store 函数 。 在 编写 store 函数 时 ,不 要 
忘记 它 是 从 用 户 空间 取 回 信息 , 因此 , 在 对 其 采取 任何 响应 前 , 最 好 仔细 检查 其 合法 性 。 
如 果 输 入 的 数据 与 预期 不 符 , 就 要 返回 一 个 负 的 错误 码 , 而 不 是 采取 一 些 不 可 预期 或 无 
法 恢复 的 行动 。 举 例 说 明 , 假定 我 们 的 设备 导出 self_destruct 属 性 , 则 应 该 要 求 必须 
将 特定 的 字符 串 写 入 该 属性 才能 调用 相应 的 功能 ,而 一 个 偶然 的 随机 写 操 作 应 产生 错误 。 


非 默认 属性 


在 许多 情况 下 ，kobject 类 型 的 aefault_attzs 成 员 描述 了 kojbect 拥 有 的 所 有 属性 。 
但 是 在 设计 上 ， 这 不 是 一 个 严格 的 限制 ， 我 们 可 以 根据 需要 对 kobject 内 的 属性 进行 添 
加 和 有 删除。 如果 和 希望 在 kobject 的 sysfs 目录 中 添加 新 的 属性 ， 只 需要 填写 一 个 attribute 
结构 ， 并 把 它 传递 给 下 面 的 函数 : 


int sysfs create_filelstruct kobject *kobj, struct attribute *attr); 


如 果 一 切 正常 ， 将 使 用 attribute 结构 中 的 名 字 创 建文 件 ， 并 返回 0。 否则 返回 一 个 
负 的 错误 码 。 


请 注意 那些 对 新 属性 调用 同一 show() 和 store() 函 数 以 实现 操作 的 情况 .在 添加 一 个 新 的 
非 默 认 属 性 前 ， 应 采取 必要 的 步骤 以 保证 这 些 函 数 知道 如 何 实现 这 些 属性 。 
调用 下 面 的 函数 删除 属性 : 

int sysfs_remove_file(struct kobject *kobj, struct attribute *attr); 


在 调用 之 后 ,属性 不 再 出 现在 kobject 的 sysfs 入 口中 。 需 要 知道 的 是 ,一 个 用 户 空间 进 
程 可 能 拥有 一 个 指向 属性 的 、 打开 的 文件 描述 符 , 因此 , 在 属性 被 副 除 后 ,show 和 store 
函数 依然 可 能 被 调用 。 
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二 进 制 属性 

sysfs 的 约定 要 求 所 有 属性 都 只 能 包含 一 个 可 读 的 文本 格式 值 。 也 就 是 说 , 对 创建 一 个 可 
以 处 理 天 量 二 进 制 数据 属性 的 需求 是 很 少 发 生 的 。 但 是 , 当 我 们 在 用 户 空间 和 设备 之 间 
传递 不 可 改变 的 数据 时 , 有 可 能 产生 这 种 需求 。 比如 向 设备 上 载 固件 时 就 需要 这 样 的 功 
能 。 如 果 我 们 在 系统 中 遇 到 这 样 的 设备 , 就 可 以 运行 用 户 空间 程序 (通过 热 插 拔 机 制 ) ， 
这 些 程序 使 用 二 进 制 的 sysfs 属性 将 固件 代码 传递 给 内 核 , 其 过程 将 在 “内 核 固件 接口 ” 
一 节 中 讲述 。 


我 们 可 以 用 bin_attribute 结构 描述 二 进 制 属 性 : 


struct bin_attribute { 
struct attribute attr; 
size_t size; 
ssize_t (*read) (struct kobject *kobj, char *buffer, 
loff_t pos, size_t size); 
ssize t {*write) (struct kobject *kobij, char *buffer, 
loff_t pos, size t size); 
}; 
这 里 , attr 是 一 个 attribute 结 构 , 它 给 出 了 名 字 、 所 有 者 、 二进制 属 性 的 权限 。size 
是 二 进 制 属性 的 最 大 长 度 ( 如果 没 有 最 大 值 ， 则 设置 为 0)。read 和 write 函数 与 子 系统 
设备 驱动 程序 中 的 相应 函数 工作 方式 类 似 。 它们 可 以 在 一 次 加 载 过 程 中 被 调用 多 次 。 每 
次 调用 所 能 操作 的 最 大 数据 量 是 一 页 .sysfs 中 没有 方法 可 以 通知 最 后 一 个 写 操作 已 经 完 


成 ,因此 实现 二 进 制 属性 操作 的 代码 必须 能 用 其 他 方法 判断 是 否 已 经 操作 到 数据 的 末尾 。 


必须 显 式 创建 二 进 制 属 性 , 也 就 是 说 ,它们 不 能 作为 默认 属性 被 设置 。 调 用 下 面 的 函数 
可 创建 二 进 制 属性 : 


int sysfs_create bin file(struct kobject *kobj, 
struct bin_attribute *attr); 


使 用 下 面 的 函数 删除 二 进 制 属性 : 


int sysfs_remove_bin_filel(struct kobject *kobj, 
struct bin attribute *attr); 


符号 链接 

sysfs 文 件 系统 具有 常用 的 树 形 结构 ,以 反映 kobject 之 间 的 组 织 层次 关系 。 通 常 内 核 中 
各 对 象 之 间 的 关系 远 比 这 复杂 。 比 如 一 个 sysfs 的 子 树 (/sys/devices) 表示 了 所 有 系统 
知晓 的 设备 。 而 其 他 的 子 树 (在 /sys/bus 下) 表示 了 设备 的 驱动 程序 。 但 是 这 些 树 并 不 
能 表示 驱动 程序 及 其 所 管理 的 设备 之 间 的 关系 。 为 了 表示 这 种 关系 还 需要 其 他 的 指针 ， 
在 sysfs 中 ， 通 过 符号 链接 实现 了 这 个 目的 。 
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在 sysfs 中 创建 符号 链接 时 使 用 下 面 的 函数 : 


int sysfs_create link(struct kobject *kobj, struct kobject *target, 
char *name); 


该 函数 创建 了 一 个 链接 ( 称 为 name) 指向 target 的 sysfs 人 口 , 并 作为 kobj 的 一 个 
属性 。 这 是 一 个 相对 链接 ， 因 此 与 sysfs 挂 装 系统 中 的 特定 位 置 无 关 。 


即使 target 已 经 从 文件 系统 中 删除 ， 该 链接 依然 存在 。 如 果 创 建 指向 其 他 kobject 的 
符 导 链接 , 应 该 有 某 种 方法 探测 到 kobject 的 这 些 变化 ,或 者 有 办 法 保证 目标 kobject 不 
会 消失 。 其 结果 (在 sysfs 中 失效 的 符号 链接 ) 并 不 致命 ,但 是 它们 并 不 是 完美 的 编程 
风格 ， 而 且 可 能 在 用 户 空间 引起 混乱 。 


用 下 面 的 函数 删除 符号 链接 : 


void sysfs_remove_link(struct kobject *kobj, char *name); 


热 插 拔 事件 的 产生 


一 个 热 插 拔 事件 是 从 内 核 空间 发 送 到 用 户 空间 的 通知 , 它 表 明 系统 配置 出 现 了 变化 。 无 
论 kxobject 被 创建 还 是 被 删除 ， 都 会 产生 这 种 事件 。 比 如 ， 当 数码 相机 通过 USB 线 缆 插 
人 到 系统 时 ， 或 者 用 户 切换 控制 台 终端 时 ， 或 者 当 给 磁盘 分 区 时 ， 都 会 产生 这 类 事件 。 
热 插 拔 事件 会 导致 对 /sbim/pnotplug 程序 的 调用 , 该 程 序 通 过 加 载 驱 动 程序 , 创建 设备 节 
点 ， 挂 装 分 区 ,或 者 其 他 正确 的 动作 来 响应 事件 。 


我 们 要 讨论 最 后 一 个 重要 的 kobject 函数 用 来 产生 这 些 事件 。 当 我 们 把 kobject 传递 给 
kobject_add 或 者 kobject_del 时 ， 才 会 真正 产生 这 些 事件 。 在 事件 被 传递 到 用 户 空间 之 
前 ， 处 理 kobject (或 者 准确 一 些 ， 是 kobject 所 属 的 kset) 的 代码 能 够 为 用 户 空间 添加 
信息 ,或 者 完全 禁止 事件 的 产生 。 | 


热 插 拔 操作 
对 热 插 拔 事件 的 实际 控制 ， 是 由 保存 在 xset_hotplug_ops 结构 中 的 函数 完成 的 : 


struct kset_hotplug_ops { 
int (*filter) (struct kset *kset, struct kobject *kobj); 
char *{*name} {struct kset *kset, struct kobject *kobj); 
int {*hotplug) (struct kset *kset, struct kobject *kobj, 
char **envp, int num_envp, char *buffer, 
int buffer_size); 
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我 们 可 以 在 kset 结 构 的 hotplug_ops 成 员 中 发 现 指 向 这 个 结构 的 指针 。 如 果 在 kset 中 不 
包含 一 个 指定 的 kobject， 内 核 将 在 分 层 结构 中 进行 搜索 (通过 parent 指针 )， 直 到 找 
到 一 个 包含 有 kset 的 kobject 为 止 ， 然 后 使 用 这 个 kset 的 热 插 技 操作 。 


无 论 什 么 时 候 ， 当 内 核 要 为 指定 的 kobject 产 生 事件 时 ， 都 要 调用 filter 函数 。 如 果 filter 
返回 0, 将 不 产生 事件 。 因 此 该 函数 给 kset 代码 一 个 机 会 ， 用 于 决定 是 否 向 用 户 空间 传 
递 特定 的 事件 。 


使 用 该 函数 的 一 个 例子 是 块 设备 子 系统 。 在 该 子 系统 中 ， 至 少 使 用 了 三 种 类 型 的 
kobject, 它们 是 磁盘 ,分 区 和 请 求 队列 。 用户 空 间 将 会 对 磁盘 或 者 分 区 的 添加 产生 响应 ， 
但 通常 不 会 响应 请 求 队列 的 变化 。 因 此 , filrer 函数 只 允许 为 kobject 产 生 磁盘 和 分 区 事 
件 。 请 看 下 面 的 代码 : 

static int block_hotplug_filter(struct kset *kset, struct kobject *kobj) 


{ 
struct kobj_type *ktype = get_ktype(kobj); 


return ({ktype = = &ktype.block) || (ktype = = &ktype_part)); 
} 


这 里 对 kobject 的 快速 类 型 检查 足以 用 来 判断 是 否 产生 事件 。 


在 调用 用 户 空间 的 热 插 拔 程序 时 ， 相 关子 系统 的 名 字 将 作为 唯一 的 参数 传递 给 它 。 
hotplug 方法 负责 提供 这 个 名 字 ， 它 将 返回 一 个 适合 传递 给 用 户 空间 的 字符 串 。 


任何 热 插 拔 脚本 所 需要 知道 的 信息 将 通过 环境 变量 传递 。 最 后 一 个 hotplug 方法 
(hotplug ) 会 在 调用 脚本 前 ， 提 供 添 加 环境 变量 的 机 会 。 该 方法 的 原型 是 : 
int (*hotplug) (struct kset *kset, struct kobject *kobj, 

char **envp, int num envp, char *buffer, 

int buffer_size); 
和 先前 一 样 ，kset 和 kobject 描 述 了 产生 事件 的 目的 对 象 。 envp 是 一 个 保存 其 他 环境 
变量 定义 的 数组 (一 般 使 用 NAME=value 的 格式 ), num_envp 说 明 目 前 有 多 少 个 变量 
入 口 。 变 量 应当 在 编码 后 放 人 长 度 为 puffer_size 的 缓冲 区 中 。 如 果 要 在 envp 中 汪 
加 任何 变量 ,请 确保 在 最 后 一 个 新 变量 后 加 入 NULL 入 口 ， 这 样 内 核 就 知道 哪里 是 结束 
点 了 。 该 方法 的 通常 返回 值 是 0， 返回 任何 非 0 值 将 终止 热 插 拔 事件 的 产生 。 


热 插 拔 事件 的 创建 (如 同 设 备 模型 中 的 许多 工作 一 样 ) 通常 被 总 线 驱动 程序 级 别 上 的 怕 
辑 所 控制 。 
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总 线 、 设 备 和 驱动 程序 


到 目前 为 止 ， 读 者 已 经 看 到 了 许多 低层 程序 的 片段 和 相关 的 例子 ， 在 本 章 的 剩余 部 分 ， 
将 讲述 Linux 设备 模型 的 高 级 部 分 。 为 达到 这 个 目的 ， 我 们 会 介绍 一 个 新 的 虚拟 总 线 ， 
称 之 为 lddbus ( 注 1)， 并 且 修 改 scullp 驱动 程序 来 “连接 ”到 这 个 总 线 。 


再 强调 一 遍 , 这 里 讲述 的 大 部 分 内 容 ， 对 许多 驱动 程序 作者 来 说 是 不 必要 的 。 通常 这 个 
层次 的 具体 细节 集中 于 总 线 层 ， 只 有 很 少 的 驱动 程序 作者 需要 添加 一 个 新 的 总 线 类 型 。 
本 章 内 容 的 读者 主要 是 那些 希望 了 解 PCI、USB 等 设备 的 工作 原理 , 或 者 是 需要 修改 这 
些 代 码 的 程序 员 。 


总 线 


总 线 是 处 理 器 与 一 个 或 者 多 个 设备 之 间 的 通道 。 在 设备 模型 中 , 所 有 的 设备 都 通过 总 线 
相连 。 其 至 是 那些 内 部 的 虚拟 “平台 ”总 线 。 总 线 可 以 互相 插入 , 比如 一 个 USB 控制 器 
通常 是 一 个 PCI 设备 。 设 备 模型 展示 了 总 线 和 它们 所 控制 的 设备 之 间 的 连接 。 


在 Linux 设备 模型 中 ， 用 bus_type 结构 表示 总 线 ， 它 的 定义 包含 在 <linux/device.h> 
中 。 其 结构 如 下 : 


struct bus._type { 
char *name; 
struct subsystem subsys; 
struct kset drivers; 
struct kset devices; 
int {*match) (struct device *dev, struct device_driver *drv); 
struct device *(*add) (struct device * parent, char * bus_id); 
int (*hotplug) (struct device *dev, char **envp, 
int num envp, char *buffer, int buffer size); 
/* 这 里 省 略 了 一 些 成 员 */ 
}; 


name 成 员 是 总 线 的 名 字 ， 比 如 pci。 我 们 可 以 从 这 个 结构 中 看 到 ， 每 个 总 线 都 有 自己 
的 子 系统 。 然 而 这 些 子 系统 并 不 在 sysfs 中 的 顶层 ， 相 反 ， 我 们 会 在 总 线 子 系统 下 面 发 


现 它们 。 一 个 总 线 包含 两 个 kset， 分 别 代表 了 总 线 的 驱动 程序 和 插入 总 线 的 所 有 设备 。 
另外 还 有 一 组 方法 ， 将 在 下 面 讲 到 。 














吉 攻 当然 , 该 总 线 的 还 辑 名 称 应 该 是 “sbus”, 但 我 们 还 是 取 了 一 个 真正 的 、 物 理 总 线 的 名 字 。 
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总 线 的 注册 


正如 读者 注意 到 的 , 例子 源 代码 包含 了 一 个 叫 1ddbus 的 虚拟 总 线 的 实现 。 这 个 总 线 用 下 
面 的 代码 设置 bus_type 结构 : 
struct bus_type ldd bus_ type = { 
.name = "ldd", 
.match = ldd match, 
.hotplug = ldd_hotplug, 
Fs 
请 注意 , 只 有 非常 少 的 bus_type 成 员 需 要 初始 化 ; 它们 中 的 大 多 数 都 由 设备 模型 核心 
所 控制 。 但 是 ， 我 们 必须 为 总 线 指定 名 字 以 及 其 他 一 些 必要 的 方法 。 


对 于 新 的 总 线 , 我 们 必须 调用 bus_register 进 行 注册 。 lddbus 使 用 下 面 的 代码 完成 注册 : 


ret = bus_register(&ldd bus_type); 
if (ret} 
return ret; 
当然 , 这 个 调用 可 能 会 失败 ,因此 必须 检查 它 的 返回 值 。 如 果 成 功 , 新 的 总 线 子 系统 将 
被 添加 到 系统 中 , 可 以 在 sysfs 的 /sys/bus 目录 下 看 到 它 。 然 后 , 我 们 可 以 向 这 个 总 线 添 
加 设备 。 


当 有 必要 从 系统 中 删除 一 个 总 线 的 时 候 (比如 相应 的 模块 被 删除 )， 要 使 用 
bus_unregister 国 数 : 


void bus_unregister (StIuct bus_type *bus); 


总 线 方法 
在 bus_type 结 构 中 , 定义 了 许多 方法 , 这 些 方法 允许 总 线 核心 作为 中 间 介质 , 在 设备 
核心 与 单独 的 驱动 程序 之 间 提供 服务 。2.6.10 内 核定 义 的 总 线 方法 有 : 


int (*match) (struct device *device, struct device_driver *driver); 
当 一 个 总 线 上 的 新 设备 或 者 新 驱动 程序 被 添加 时 , 会 一 次 或 多 次 调用 这 个 函数 。 如 
果 指 定 的 驱动 程序 能 够 处 理 指定 的 设备 ， 该 函数 返回 非 零 值 (不 久 将 详细 讲述 
device 和 device_driver 结 构 )。 必须 在 总 线 层 上 使 用 该 函数 , 因为 那里 存在 
着 正确 的 逻辑 。 核 心 内 核 不 知道 如 何 为 每 个 总 线 类 型 匹配 设备 和 驱动 程序 。 


int (*hotplug) (struct device *device, char **envp, int num envp, char 
*buffer, int buffer_size); 
在 为 用 户 空间 产生 热 插 拔 事件 前 , 这 个 方法 允许 总 线 添加 环境 变量 。 其 参数 与 kset 
的 hotplug 方法 相同 《在 前 面 的 “ 热 插 拔 事件 的 产生 ”一 节 中 讲述 )。 
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lddbus 驱动 程序 有 一 个 非常 简单 的 match 方 法 , 它 只 是 简单 地 比较 了 驱动 程序 和 设备 的 
名 字 : 

static int ldd match{struct device *dev, struct device_driver *driver) 

{ 


return !strncmp(dev->bus_id, driver->name, strlienl(driver->name)}; 


} 


在 调用 真实 的 硬件 时 ，match 函数 通常 对 设备 提供 的 硬件 ID 和 驱动 所 支持 的 ID 做 某 种 
类 型 的 比较 。 


下 面 是 iddbus 的 hotplug 函数 : 


static int ldd_hotplug{(struct device *dev, char **envp, int num_envp, 
char *buffer, int buffer size) 
{ 
envp[l0] = buffer; 
if (Snprintf (buffer, buffer_size, "LDDBUS_VERSION=%s", 
Version) >= buffer size) 
return -ENOMEM; 
envp[1] = NULL; 
return 0; 


} 


这 里 , 我 们 只 是 在 环境 变量 中 添加 了 1ddbus 源 代码 的 当前 版 本 号 , 以 便 读 者 做 相应 的 了 
解 。 


对 设备 和 驱动 程序 的 迭代 


如 果 要 编写 总 线 层 代 码 , 可 能 会 发 现 不 得 不 对 注册 到 总 线 的 所 有 设备 和 驱动 程序 执行 某 
些 操作 。 这 可 能 需要 仔细 研究 戏 和 人 到 bus_type 结 构 中 的 其 他 数据 结构 , 但 是 使 用 内 核 
提供 的 辅助 函数 会 更 好 一 些 。 


为 了 操作 注册 到 总 线 的 每 个 设备 ， 可 使 用 : 


int bus_for_each devistruct bus_type *bus, struct device *start, 
void *data, int (*fn) {struct device *, void *)); 
该 函数 迭代 了 在 总 线 上 的 每 个 设备 , 将 相关 的 device 结构 传递 给 fn, 同时 传递 aata 
值 。 如 果 start 是 NULL， 将 从 总 线 上 的 第 一 个 设备 开始 迭代 ; 否则 将 从 start 后 的 
第 一 个 设备 开始 迭代 。 如 果 fn 返回 一 个 非 零 值 ， 将 停止 迭代 ， 而 这 个 值 也 会 从 
bus_for_each_dev 返回 。 


相似 的 函数 也 可 用 于 驱动 程序 的 迁 代 上 : 


int bus_for_each_drv(struct bus_type *bus, struct device_driver *start, 
void *data, int {(*fn) (Struct device_driver *, void *)); 
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该 函数 的 工作 方式 与 bus_for_each_dev 相同 ， 只 是 它 的 工作 对 象 是 驱动 程序 而 已 。 


值得 注意 的 是 , 这 两 个 函数 在 工作 期 间 , 都 会 拥有 总 线 子 系统 的 读 取 者 / 写 人 者 信号 量 。 
因此 ， 同 时 使 用 这 两 个 函数 会 发 生死 锁 一 一 它们 中 的 任何 一 个 函数 都 试图 获得 相同 的 
信号 量 。 修 改 总 线 的 操作 (比如 注销 设备 ) 也 有 同样 的 问题 。 因 此 使 用 bus_for_each 国 
数 要 多 加 小 心 。 


总 线 属性 


几乎 在 Linux 设备 模型 的 每 一 层 都 提供 了 添加 属性 的 函数 ， 总 线 层 也 不 例外 。 
bus_attribute 类 型 在 <linux/device.h> 中 定义 ， 其 代码 如 下 : 


struct bus_attribute { 
struct attribute attr; 
ssize_t {(*show) (struct bus_type *bus, char *buf); 
ssize_t (*store) (Struct bus_type *bus, const char *buf, 
size_t count); 


re 


已 经 在 “默认 属性 ”一 节 中 讨论 过 attribute 结 构 了 。bus_attribute 类 型 也 包括 了 两 
个 用 来 显示 和 设置 属性 值 的 函数 。 大 多 数 在 kobject 级 以 上 的 设备 模型 层 都 是 按 此 种 方 
式 工作 的 。 

有 一 个 非常 便于 使 用 的 宏 ， 可 在 编译 时 刻 创建 和 初始 化 bus_attribute 结构 : 


BUS_ATTR (name, mode, show, store); 
这 个 宏 声 明了 一 个 结构 , 它 将 bus_attr_ 作 为 给 定 name 的 前 组 来 创建 总 线 的 真正 名 称 。 
创建 属 干 总 线 的 任何 属性 ， 都 需要 显 式 调用 bus_create_file 函数 : 


int bus_create_file{struct bus_type *bus, struct bus_attribute *attr); 


也 可 以 使 用 下 面 的 函数 删除 属性 : 


void bus_remove_file(struct bus_ type *bus, struct bus_attribute *attr); 


1ddbus 驱动 程序 创建 了 一 个 包含 版 本 号 的 属性 文件 。 其 中 show 函数 和 bus_attribute 
结构 使 用 下 面 的 代码 设置 : 

static ssize_t show_bus_version(Sstruct bus_type *bus, char *buf) 

和 


return snprintf (buf, PAGE_SIZE, "%s\n", Version); 
’ 


static BUS_ATTR (version, S_IRUGO, show_bus_version, NULL); 
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在 模块 的 装载 阶段 创建 属性 文件 : 


if (bus_creace_filel(&lddq_bus_cype，&bus_attr_versionl) ) 
printk (KERN_NOTICE "Unable to create version attribute\n"); 


在 iddbus 中 ， 上 面 的 语句 创建 了 一 个 包含 版 本 号 的 属性 文件 (/sys/buslidd/iversion ) 。 


在 最 底层 ，Linux 系统 中 的 每 一 个 设备 都 用 device 结构 的 一 个 实例 来 表示 : 
struct device { 
struct device *parent; 
struct kobject kobj; 
char bus_id[BUS_ID_SIZE]; 
struct bus_type *bus; 
struct device_driver *driver; 
void *driver _data; 
void (*release) {struct device *dev); 
/* 省 略 了 几 个 成 员 */ 
] 
在 aevice 结 构 中 还 有 许多 包含 其 他 结构 的 成 员 , 它 们 只 对 设备 核心 代码 起 重要 的 作用 。 
但 是 了 解 以 下 这 些 成 员 是 非常 值得 的 : 


struct device *parent 
设备 的 “ 父 ” 设 备 一 一 指 的 是 该 设备 所 属 的 设备 。 在 大 多 数 情 况 下 ， 一 个 父 设备 
通常 是 某 种 总 线 或 者 是 宿主 控制 器 。 如 果 parent 是 NULL, 表示 该 设备 是 顶层 设 
备 ， 但 这 种 情况 很 少 出 现 。 

struct kobject kobj; 
表示 该 设备 并 把 它 连 接 到 结构 体系 中 的 kobject。 请 注意 ， 作 为 一 个 通用 准则 ， 
device->kobj->parent 与 kGevice~>parent->kobj 是 相同 的 。 

char bus_id{[BUS_ID_SIZE); 
在 总 线 上 唯一 标识 该 设备 的 字符 串 。 比 如 PCI 设 备 使 用 了 标准 PCI ID 格式 ， 它 包 
括 : 域 编 号 、 总 线 编 号 、 设 备 编号 和 功能 编号 。 

struct bus_type *bus; 


标识 了 该 设备 连接 在 何 种 类 型 的 总 线 上 。 
struct device driver *driver; 


管理 该 设备 的 驱动 程序 。 在 下 一 节 中 将 介绍 device_driver 结构 。 


void *driver_data; 


由 设备 驱动 程序 使 用 的 私有 数据 成 员 。 
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void (*release) (struct device *dev}; 
当 指向 设备 的 最 后 一 个 引用 被 删除 时 ， 内 核 调 用 该 方法 : 它 将 从 内 嵌 的 kobject 的 
release 方法 中 调用 。 所 有 向 核心 注册 的 aevice 结构 都 必须 有 一 个 release 方法 ， 
否则 内 核 将 打印 出 错误 信息 。 


在 注册 device 结构 前 ， 至 少 要 设置 parent、bus_id、bus 和 release 成 员 。 


设备 注册 
常用 的 注册 和 注销 函数 是 : 

int device_register{Struct device *dqev) 

void device_unregister (Struct device *dev); 
我 们 已 经 看 到 了 /ddbus 代码 是 如 何 注册 它 的 总 线 类 型 的 , 然而 , 一 个 实际 的 总 线 是 一 个 
设备 、 因此 必须 被 单独 注册 。 出 于 简化 的 原因 ，iddbus 模块 只 支持 了 单独 的 虚拟 总 线 ， 
因此 ， 驱 动 程序 在 编译 时 构造 它 的 设备 : 

static void ldd bus_release{lstruct device *dev) 

{ 


printk {KERN_DEBUG "lddbus release\n"); 
} 


struct device ldd pus = { 
.bus_id = "lda0°*, 
.release = ldd_ bus_release 
}; 
这 是 一 个 顶层 总 线 , 因此 parent 和 bus 成 员 是 NULL, 而 release 方 法 不 做 任何 实质 性 
的 工作 。 作 为 第 一 个 (也 是 唯一 一 个 ) 总 线 ， 它 的 名 字 是 1940。 该 总 线 用 下 面 的 函数 
注册 : 
ret = vie diete ld pa 
if {ret) 
printk (KERN_NOTICE "Unable to register ldd0O\n"); 
完成 这 个 调用 后 , 我 们 就 可 以 在 sysfs 中 的 /sys/devices 目录 中 看 到 它 。 任何 添加 到 该 总 
线 的 设备 都 会 在 /sys/devices/ldd0/ 中 显示 。 


设备 属性 
sysfs 中 的 设备 入 口 可 以 有 属性 。 相 关 的 结构 是 : 
struct device_attribute { 


struct attribute attr; 
ssize_t (*show) (struct device *dev, char *buf); 
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ssize_t (*store) (struct device *dev, const char *buf, 
size_t count)}; 


多 


我 们 可 以 在 编译 时 刻 用 下 面 的 宏 构造 这 些 attribute 结构 ; 


DEVICE_ATTR (name, mode, show, store}); 


该 结构 将 dev_attr_ 作为 指定 名 字 的 前 级 来 构造 结构 的 名 称 。 用 下 面 的 两 个 函数 实 
现 对 属性 文件 的 实际 处 理 : 
int device_create_filel(struct device *device, 
struct device_attribute *entry); 


void device_remove_filelstruct device *dev, 
struct device_attribute *attr),; 


bus_type 结 构 中 的 dev_attrs 成 员 , 指向 一 个 为 每 个 加 入 总 线 的 设备 建立 的 默认 属 
性 链表 。 


设备 结构 的 嵌入 


device 结 构 中 包含 了 设备 模型 核心 用 来 模拟 系统 的 信息 。 然 而 , 大 多 数 子 系统 记录 了 
它们 所 拥有 设备 的 其 他 信息 , 因此 ,单纯 用 device 结构 表示 的 设备 是 很 少见 的 , 而 是 通 
常 把 类 似 kobject 这 样 的 结构 内 伐 在 设备 的 高 层 表 示 之 中 。 如 果 读 者 阅读 pci_dev 或 者 
usb_device 结 构 的 定义 ,就 会 发 现 其 中 隐藏 了 device 结 构 。 通常 , 底层 驱动 程序 并 
不 知道 device 结构 ， 但 是 也 有 例外 。 


lddbus 驱动 程序 创建 了 自己 的 device 类 型 (19d_device 结 构 ), 并 希望 每 个 设备 驱动 
程序 使 用 这 个 类 型 注册 它们 的 设备 。 这 是 一 个 简单 的 结构 : 
struct ldd device { 
char *name; 
struct ldqd_driver *driver; 


struct device dev; 
}; 


#define to_ldd_ Gevice(dev) container of(dev, struct ldd_device, dev); 


该 结构 允许 驱动 程序 为 设备 提供 实际 的 名 字 ( 它 与 保存 在 device 结 构 中 的 总 线 ID 不 同 )， 
还 提供 一 个 指向 驱动 程序 信息 的 指针 。 真 实 设备 的 结构 通常 包含 供应 商 信息 、 设 备 模型 、 
设备 配置 、 使 用 的 资源 等 其 他 信息 。pci_dev (<linuxipci>) 结构 或 者 usb_device 
(<linuxiusb.h>) 结构 都 是 非常 好 的 例子 。 我 们 为 1aa_device 定义 了 一 个 宏 
(to_ldd_device)， 以 便于 将 嵌入 的 aevice 结构 指针 转化 为 1ada_aevice 指 针 。 


lddbus 导出 的 注册 接口 如 下 : 
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int register_ldqd devicel(struct ldd device *ldddev) 
{ 
ldddev->dev.bus = &ldd_ bus_type; 
ldddev->dev.parent = &ldd bus; 
ldddev->dev.release = ldd dev release; 
strncpy (ldadev->dev.bus_id, ldddev->name, BUS,_ID_SIZE); 
return device register(&kldddev->dev}); 
} 
EXPORT_SYMBOL (register._ldd device); 


如 土 所 示 、 只 是 简单 地 填充 了 做 和 人 的 device 结 构 中 一 些 成 员 (单独 的 驱动 程序 没有 必 
要 知道 这 些 )， 并 且 向 驱动 程序 核心 注册 设备 。 我 们 也 可 以 在 这 里 添加 总 线 专 有 的 设备 
属性 。 


为 了 展示 这 个 接口 是 如 何 被 使 用 的 ,现在 向 读者 介绍 另外 一 个 例子 驱动 程序 ， 称 之 为 
sculld。 它 是 先前 在 第 八 章 介 绍 的 sculip 驱 动 程序 的 另外 一 个 版 本 。 它 实现 了 通常 的 内 存 
区 域 设 备 ， 但 是 sculld 可 通过 lddbus 接口 利用 Linux 设备 模型 工作 。 


sculld 驱动 程序 向 它 的 设备 人 口 添加 了 一 个 自己 的 属性 ， 称 之 为 aev， 它 只 包含 了 相关 
的 设备 编号 。 这 个 属性 可 以 由 模块 装载 脚本 , 或 者 热 插 拔 子 系统 使 用 ,以 便 在 设备 添加 
到 系统 中 时 自动 创建 设备 节点 。 该 属性 的 设置 使 用 以 下 代码 : 


static ssize t sculld_show_dev(struct device *ddev, char *buf) 
struct sculld dev *dev = ddev->driver_data; 


return print_dev t (buf, dev->cdev.dev); 
} 


static DEVICE_ATTR{dev, S_IRUGO, sculld_show_dev, NULLD); 


然后 在 初始 化 时 注册 设备 ， 并 且 用 下 面 的 函数 创建 dev 属性 : 


static void sculld register_dev{(struct sculld dev *dev, int index) 
{ 
sprintf (dev->devname, "sculld%d", index); 
Gev->ldev .name = dev->devname; 
Gev->ldev.driver = &sculld driver; 
dev->ldev.dev.driver data = dev; 
register_ldd devicel(&gdev->ldev); 
device_create_file(g&dev->ldev.dev, &dev attr_dev); 
} 


请 注意 这 里 使 用 了 driver_data 成 员 保 存 了 指向 自身 内 部 device 结构 的 指针 。 


设备 驱动 程序 
设备 模型 跟踪 所 有 系统 所 知道 的 设备 ,进行 跟踪 的 主要 原因 是 让 驱动 程序 核心 协调 驱动 
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程序 与 新 设备 之 间 的 关系 ,一 旦 驱动 程序 是 系统 中 的 已 知 对 象 , 就 可 能 完成 大 量 的 工作 。 
例如 ,设备 驱动 程序 可 以 导出 信息 和 配置 变量 ,而 这 些 东西 都 是 独立 于 任何 特定 设备 的 。 


驱动 程序 由 以 下 结构 定义 : 


struct device driver { 
char *name; 
struct bus_type *bus; 
struct kobject kobj; 
struct list head devices; 
int {*probe) (struct device *dev); 
int {*remove) (struct device *dev): 
void (*shutdown) {struct device *dev),; 


下 


再 次 强调 ， 结 构 中 的 许多 成 员 已 经 被 忽略 掉 了 (请 参看 <linux/device.h> 了 解 全 部 的 成 
员 )。 其 中 , name 是 驱动 程序 的 名 字 ( 它 将 在 sysfs 中 显示 ), bus 是 该 驱动 程序 所 操作 
的 总 线 类 型 ，kobj 是 必需 的 kobject，devices 是 当前 驱动 程序 能 操作 的 设备 链表 ， 
probe 是 用 来 查询 特定 设备 是 否 存在 的 函数 (以 及 这 个 驱动 程序 是 否 能 操作 它 ), 当 设 备 
从 系统 中 删除 的 时 候 要 调用 remove 函 数 , 在 关机 的 时 候 调 用 shutdown 函 数 关闭 设备 。 


操作 device_driver 结构 的 函数 形式 现在 看 起 来 会 很 熟悉 ( 将 很 快 讨论 它们 )。 它 的 
注册 函数 是 : 


int driver_register(Sstruct device_driver *drv}); 
void driver_unregister(Struct device_driver *drv); 


常用 的 属性 结构 是 : 


struct driver_attribute { 
struct attribute attr; 
ssize_t (*show) {struct device_driver *drv, char *buf); 
ssize_t (*store) (struct device driver *drv, const char *buf, 
size_t count); 
}; 
DRIVER_ATTR (name, mode, show, store); 


使 用 下 面 的 函数 创建 属性 文件 : 


int driver_create_file(struct device_driver *drv, 
struct driver_attribute *attr); 

void driver_remove_filel(struct device driver *drv, 
struct driver attribute *attr):; 


bus_type 结 构 包 含 了 一 个 成 员 (drv_attrs), 它 指向 一 组 为 属于 该 总 线 的 所 有 设备 
创建 的 默认 属性 。 
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驱动 程序 结构 的 嵌入 


对 于 大 多 数 驱 动 程序 核心 结构 来 说 ,device_driver 结 构 通常 被 包含 在 高 层 和 总 线 相 
关 的 结构 中 。iddbus 子 系统 也 不 违反 这 一 原则 , 因此 它 定义 了 自己 的 199_Qriver 结 构 : 


struct ldd_driver { 
char *version; 
struct module *module; 
struct device_driver driver; 
struct driver attribute version_attr; 


二 


#define to_ldd_driver(drv) container_of(tdqrv，struct ldd driver, driver); 


这 里 , 我 们 要 求 每 个 驱动 程序 提供 自己 当前 的 软件 版 本 号 , 1ddbus 为 它 所 知道 的 每 一 个 
驱动 程序 导出 这 个 版 本 字符 串 。 该 总 线 特有 的 驱动 程序 注册 函数 如 下 : 


int register_ldd_driver(struct ldd_driver *driver) 
{ 
int ret; 


driver->driver.bus = &ldd_bus_type; 

ret = driver register{&driver->driver); 

if {ret) 

return ret; 

driver->version_attr.attr.name = "version"; 

driver->version_attr.attr.owmer = driver->module; 

driver->version_attr.attr.mode = S_IRUGO; 

driver->version_attr.show = show_version; 

driver->version attr.store = NULL; 

return driver create_file(&gdriver->driver, &kdriver->version_attr); 
} 


该 函数 的 前 半 部 分 只 是 简单 地 向 核心 注册 了 低层 的 device_driver 结 构 , 其 余部 分 设 
团 了 版 本 号 属性 。 由 于 该 属性 是 在 运行 时 建立 的 , 因此 不 能 使 用 DRIVER_ATTR 宏 ,这 
样 , 我 们 必须 手工 填写 dariver_attribute 结 构 。 请 注意 要 将 owner 属 性 设置 为 驱动 
程序 模块 , 而 不 是 1ddbus 模 块 , 这 么 做 的 原因 可 以 在 为 该 属性 实现 的 show 函数 中 看 到 : 


static ssize_t show_version(struct device_driver *driver, char *buf) 


{ 
struct ldd driver *ldriver = to_ldd driver (driver); 


sprintf (buf, "%s\n", ldriver->version); 
return strlenl(buf); 
} 
也 许 有 的 读者 会 想 , owner 属 性 应 该 是 iddbus 模块 ,因为 在 那里 定义 了 实现 该 属性 的 函 
数 。 然 而 ， 该 函数 使 用 驱动 程序 自己 创建 和 拥有 的 149_ariver 结构 。 如 果 该 结构 已 
经 不 存在 了 , 而 用 户 空间 进程 又 要 试图 读 取 版 本 号 , 则 可 能 会 出 现 麻烦 。 将 owner 属 性 
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设置 为 驱动 程序 模块 可 防止 用 户 空间 打开 属性 文件 时 秃 载 模块 的 情况 发 生 。 由 于 每 个 驱 
动 程序 模块 创建 了 Iiddbus 模块 的 引用 ， 因 此 可 以 保证 不 会 在 不 适当 的 时 候 被 卸载 。 


考虑 到 完整 性 ，sculld 用 下 面 的 代码 创建 自己 的 199_driver 结构 : 


static struct ldd driver sculld driver = { 
.version = "$Revision: 1.1 $°", 
module = THIS MODULE, 
.driver = { 
.name = "sculld", 
}s 
}; 


一 个 register_ldd_driver 调 用 将 它 添加 到 了 系统 中 。 一旦 初始 化 完成 , 就 可 以 在 sysfs 中 
看 到 驱动 程序 信息 : 


$ tree /sys/bus/ldd/drivers 


/sys/bus/1dd/drivers 

“-- sculld 
1-- sculld0 -> ../../../../devices/1ldd0/sculld0d 
|-- sculldl -> ../../../../devices/ldd0/sculldl 
|-- sculld2 -> ../../../../devices/ldd0/sculld2 
|-- sculld3 -> ../../../../devices/}lda0/sculld3 
“~- version 


类 

本 章 讨论 的 最 后 一 个 设备 模型 概念 是 类 。 类 是 一 个 设备 的 高 层 视图 , 它 抽象 出 了 低层 的 
实现 细节 。 了 驱动 程序 看 到 的 是 SCSI 磁 盘 和 ATA 磁盘 , 但 是 在 类 的 晨 次 上 ,它们 都 是 磁 
盘 而 已 。 类 允许 用 户 空间 使 用 设备 所 提供 的 功能 , 而 不 关心 设备 是 如 何 连接 的 , 以 及 它 
们 是 如 何 工作 的 。 


几乎 所 有 的 类 都 显示 在 /sys/class 目 录 中 。 举 个 例子 , 不 管 网 络 接口 的 类 型 是 什么 , 所 有 
的 网 络 接 口 都 集中 在 /sys/class/net 下 。 输入 设备 可 以 在 /sys/class/input 下 找到 , 而 串 行 
设备 都 集中 在 /sys/class/tty 中 。 一 个 例外 是 块 设备 、 出 于 历史 的 原因 ， 它 们 出 现在 /sys/ 
block 下 。 


类 成 员 通 常 被 上 层 代 码 所 控制 ， 而 不 需要 来 自 驱 动 程序 的 明确 支持 。 当 sbul! 驱动 程序 
(参看 第 十 六 章 ) 创建 一 个 虚拟 磁盘 设备 时 , 它 将 自动 出 现在 /sys/block 中 。snul! 网 络 驱 
动 程序 (参看 第 十 七 章 ) 也 不 必 为 /sysiclass/net 中 出 现 的 接口 做 任何 特殊 的 事情 。 但 是 ， 
有 些 情况 下 驱动 程序 也 需要 直接 处 理 类 。 


在 许多 情况 下 ， 类 子 系统 是 向 用 户 空间 导出 信息 的 最 好 方法 。 当 子 系统 创建 一 个 类 时 ， 
它 将 完全 拥有 这 个 类 , 因此 根本 不 必 担心 哪个 模块 拥有 那些 属性 。 只 要 花 很 少 的 时 间 观 
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察 一 下 sysfs 中 那些 面向 硬件 的 部 分 ， 就 会 发 现 它 的 表示 并 不 十 分 友好 ， 我 们 会 更 原意 
在 /sysiclass/ 下 查找 信息 , 而 不 是 在 /sys/devices/pci0000:00/0000:00:10.0l1usb2/12-0:1.0 
中 查找 。 


为 了 管理 类 ， 驱 动 程序 核心 导出 了 两 个 不 同 的 接口 。class_simple 例 程 提 供 了 一 -种 尽 可 
能 简单 的 方法 , 来 向 系统 中 添加 新 的 类 ; 通常 这 些 例 程 的 主要 目的 是 ,提供 包含 设备 号 
的 属性 以 便 创 建设 备 节点 。 正 规 的 类 的 接口 更 复杂 一 些 , 但 也 提供 了 更 多 的 功能 。 这 里 
从 简单 的 接口 人 手 学 习 。 


class_simple 接口 
class_sinmple 接 口 非常 易于 使 用 ， 甚 至 用 不 着 用 户 担心 导出 包含 已 分 配 设 备 号 属性 这 样 
的 信息 。 这 个 接口 只 是 一 些 简单 的 函数 调用 , 几乎 没有 使 用 Linux 设 备 模型 的 样板 文件 。 
第 一 步 是 创建 类 本 身 。 调 用 class_simple_create 函数 完成 这 一 任务 : 

struct class_simple *class_simple_create(Struct module *owner, char *narme) 
该 函数 使 用 给 定 的 名 字 创 建 类 。 这 个 操作 有 可 能 会 失败 ,因此 在 进行 下 一 步 前 , 应 始终 
检查 它 的 返回 值 (使 用 第 十 一 章 “ 指 针 和 错误 值 ”一 节 中 介绍 的 1S_ERR )。 
可 以 用 下 面 的 函数 销毁 一 个 简单 类 : 


void class_simple_dqestroy (Struct class_simple *cs); 


创建 一 个 简单 类 的 真实 目的 是 为 它 添加 设备 ， 我 们 可 使 用 下 面 的 函数 达到 这 一 目的 : 


struct class_device *class_simple_device_add(struct class_simple *cs, 
dev_t devnum, 
struct device *device, 
conat char *fmt, ,ial]s 


这 里 , cs 是 前 面 创建 的 简单 类 , Gevnum 是 分 配 的 设备 号 , device 是 表示 这 个 设备 的 
Gevice 结 构 , 剩 下 的 参数 是 用 来 创建 设备 名 称 的 , printk 风 格 的 格式 字符 串 和 参数 .该 


调用 向 包含 设备 号 属性 (dev) 的 类 中 添加 了 一 个 人 口 。 如 果 device 参数 不 是 NULL， 
一 个 符号 链接 { 称 为 aevice) 将 指向 /sys/devices 下 的 设备 人 口 。 


可 以 向 设备 人 口 添加 其 他 属性 ,这 时 可 使 用 class_device_create_file 函数 ， 该 函数 和 类 
子 系统 的 其 余部 分 将 在 下 一 节 讲 述 。 


在 插 拔 设备 时 , 类 会 产生 热 插 拔 事件 。 如 果 驱 动 程序 需要 为 用 户 空间 处 理 程序 添加 环境 
变量 的 话 ， 可 以 用 下 面 的 代码 设置 热 插 拔 回 调 函 数 : 
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int class_simple_set_hotplug{(struct class_simple *cs, 
int (*hotplug) {struct class_device *dev, 
char **envp, int num envp, 
char *buffer, int buffer_size)); 


当 拨 除 设备 时 ， 使 用 下 面 的 函数 删除 类 人 口 : 


void class_simple device_remove{dev_t dev); 


请 注意 ,这 里 并 不 需要 class_simple_device_add 返 回 的 class_device 结 构 , 提供 设 
备 号 (应 该 是 唯一 的 ) 就 足够 了 。 


完整 的 类 接口 

class_simple 接口 能 够 满足 许多 需求 ,但 有 时 候 需 要 有 更 强 的 灵活 性 。 下 面 的 讨论 将 描 
述 如 何 使 用 基于 cliass_simple 的 完整 类 机 制 。 简 而 言 之 ,类 函数 和 结构 与 设备 模型 的 其 
他 部 分 遵从 相同 的 模式 ， 因 此 真正 困 新 的 概念 是 很 少 的 。 


管理 类 
用 class 结构 的 一 个 实例 来 定义 类 : 


struct class | 
char *name; 
struct class_attribute *class_attrs; 
struct class_device_attribute *class_dev_attrs; 
int {*hotplug) {struct class_device *dev, char **envp, 
int num envp, char *buffer, int buffer_size),; 
void {(*release) (Struct Class_device *dev); 
void (*class_release) {struct class *class); 
/* 省 略 了 一 些 成 员 */ 
> 


每 个 类 都 需要 一 个 唯一 的 名 字 ， 它 将 显示 在 /sys/class 中 。 一 个 类 被 注册 后 ， 将 创建 
class_attrs 指向 的 数组 (以 NULL 结尾 ) 中 的 所 有 属性 。 还 要 添加 每 个 设备 的 一 组 
默认 属性 ， 而 class_dev_attrs 指针 指向 了 这 些 属性 。 当 热 插 拔 事件 产生 时 ,还 有 一 个 党 
用 的 hotplug 函数 用 来 添加 环境 变量 。 还 有 另外 两 个 release 方 法 : 把 设备 从 类 中 删除 时 ， 
调用 release 方法 ， 而 释放 类 本 身 时 ， 调 用 class_release 方法 。 


注册 函数 是 : 


int class_register (Struct class *cls); 
void class_unregister (Struct class *cls); 


处 理 属性 的 接口 对 读者 来 说 已 经 没有 什么 稀奇 的 了 : 
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struct class_attribute { 

struct attribute attr; 

ssize_t (*show) (struct class *cls, char *buf); 

ssize t (*store) (struct class *cls, const char *buf, size t count}); 
}; 


CLASS_ATTR (name, mode, show, store); 
int class_create_file(struct class *cls, 

const struct class_attribute *attr),; 
void class_ remove_filelstruct class *cils, 

const struct class_attribute *attr); 


类 存在 的 真正 目的 是 ,给 作为 类 成 员 的 各 个 设备 提供 一 个 容器 。 用 class. device 结 构 
表示 类 的 成 员 : 
struct class_device { 
struct kobject kobj; 
struct class *class; 
struct device *dev; 
void *class_data; 


char class_id[BUS_ID_SIZE]; 
}; 


class_id 成 员 包含 了 要 在 sysfs 中 显示 的 设备 名 。class 指针 指向 包含 该 设备 的 类 ， 
dev 指向 与 此 相关 的 Gevice 结构 。 对 dev 的 设置 是 可 选 的 ; 如 果 它 不 是 NULL, 它 将 
创建 一 个 从 类 入 口 到 /sys/devices 下 相应 和 人口 的 符号 链接 ,使 得 在 用 户 空间 查找 设备 入 口 
非常 简单 。 类 使 用 class_data 保存 私 有 数据 指针 。 


常用 的 注册 函数 如 下 : 


int class device_registerl(struct class device *cd)，; 
void class_device_ unregister{struct class device *cd); 


类 设备 接口 还 允许 已 经 注册 过 的 入 口 项 改名 : 


int class_device_rename(struct class_device *cd, char *new_name); 


类 设备 人 口 具 有 属性 : 


struct class_device_attribute { 
struct attribute attr; 
ssize_t {*show) (struct class_device *cls, char *buf); 
ssize_t (*store) (struct class_dqevice *cls, const char *buf, 
size_t count)}); 
}3 
CLASS_DEVICE_ATTR (name, mode, show, store); 


int class_device create_file{struct class_device *cls, 
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const struct class device_attribute *attr); 
void class_device_remove_file(struct class_device *cls, 
const struct Cl1aSss_device_attribute *attr); 


在 类 的 class._dev_attrs 成 员 中 保存 了 默认 的 属性 , 在 注册 类 设备 的 时 候 , 就 会 创建 这 
些 属性 。class_device_create_file 用 来 创建 其 他 的 属性 。 属 性 也 能 被 添加 到 由 
class_simple 接口 创建 的 类 设备 中 去 。 


类 接口 


类 子 系统 具有 一 个 在 Linux 设备 模型 其 他 部 分 找 不 到 的 附加 概念 。 该 机 制 被 称 为 “ 接 
口 "， 但 是 把 它 理 解 成 一 种 设备 加 入 或 者 离开 类 时 获得 信息 的 触发 机 制 更 为 贴切 些 。 


一 个 接口 由 下 面 的 结构 表达 : 


struct class_interface { 
struct class *class; 
int {*add) {struct class_device *cd); 
void (*remove) {struct class_device *cd); 
}; 


可 以 用 下 面 的 函数 注册 和 注销 接口 : 


int class_interface_register(struct class_interface *intf); 
void class_interface unregister(struct class_interface *intf); 


接口 函数 都 是 望 其 名 知 其 意 的 。 无 论 何 时 把 一 个 类 设备 添加 到 class_interface 结 构 所 
指定 的 类 中 ， 都 将 调用 接口 的 add 函数 。 该 函数 能 为 设备 做 一 些 其 他 的 必要 设置 ,通常 


这 些 设置 表现 为 添加 更 多 的 属性 , 但 也 能 完成 其 他 一 些 工作 。 在 从 类 中 删除 设备 时 , 调 
用 remove 函数 来 做 必要 的 清理 工作 。 


可 以 为 单个 类 注册 多 个 接口 。 


各 环节 的 整合 

为 了 能 更 好 地 理解 什么 是 驱动 程序 模型 ,现在 进入 内 核 看 一 看 设备 生命 周期 的 各 个 环节 。 
前 面 讲述 了 PCI 子 系统 是 如 何 与 驱动 程序 模型 交互 的 , 还 讲解 了 在 系统 内 一 个 驱动 程序 
的 添加 与 删除 , 以 及 一 个 设备 的 添加 与 员 除 的 概念 。 这 些 细节 虽然 是 针对 PCI 核 心 代码 
讲解 的 ， 但 是 也 适用 于 其 他 所 有 使 用 驱动 程序 核心 管理 驱动 程序 和 设备 的 子 系统 。 


在 PCI 核心、 驱动 程序 核心 以 及 单独 的 PCI 驱动 程序 之 间 的 交互 是 非常 复杂 的 ， 如 图 
14-3 所 示 。 
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14-3: 设备 创建 过 程 


添加 一 个 设备 
PCI 子 系统 声明 了 一 个 bus_type 结构 ， 称 为 pci_bus_type， 它 由 下 面 的 值 初始 化 : 


struct bus_type pci_bus_type = { 


.name i "cE, 

.match = pci_bus_match, 
.hotplug = pci_hotplug, 
.Suspend = pci_device_suspend, 
.resume = pci_device_resume, 


.dev_attrs = pci_dev_attrs, 
和 
在 将 PCI 子 系统 装载 到 内 核 中 时 , 通过 调用 bus_register, 该 pc i_bus_type 变量 将 向 
哎 动 程序 核心 注册 。 此 后 ,驱动 程序 将 在 /sys/bus/pci 中 创建 一 个 sysfs 目录 ， 其 中 包含 
了 两 个 目录 : devices 和 drivers。 


所 有 的 PCI 驱 动 程序 都 必须 定义 一 个 pci_ariver 结 构 变 量 , 在 该 变量 包含 了 这 个 PCI 
驱动 程序 所 提供 的 不 同 功能 函数 (关于 PCI 子 系统 , 以 及 如 何 编写 PCI 驱 动 程序 的 知识 ， 
请 参看 第 十 二 章 )。 这 个 结构 中 包含 了 一 个 device_driver 结 构 , 在 注册 PCI 驱 动 程序 
时 ， 这 个 结构 将 被 初始 化 : 
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/* 初始 化 ariver 中 常用 的 成 员 */ 

drv->driver.name = drv->name; 

drv->driver.bus = &pci_bus_type:; 
drv->driver.probe = pci_device_probe; 
drv->driver.remove = pci_device_remove; 
drv->driver.kobj.ktype = &pci_driver_kobj_type; 


该 段 代码 用 来 为 驱动 程序 设置 总 线 ， 它 将 驱动 程序 的 总 线 指向 pci_bus_type, 并 且 
将 probe 和 remove 函数 指向 PCI 核 心中 的 相关 函数 。 为 了 让 PCI 驱 动 程序 的 属性 文件 能 
正常 工作 , 将 驱动 程序 的 kobject 中 的 ktype 设 置 成 pci_griver_kobj_type。 然 后 
PCI 核心 向 驱动 程序 核心 注册 PCI 驱动 程序 : 

/* 向 核心 注册 */ 


error = driver_register(&drv->driver); 


现在 驱动 程序 可 与 其 所 支持 的 任何 PCI 设备 绑 定 。 


在 能 与 PCI 总 线 交 互 的 特定 体系 架构 代码 的 帮助 下 ，PCI 核心 开始 探测 PCI 地 址 空间 ， 
查找 所 有 的 PCI 设 备 。 当 一 个 PCI 设 备 被 找到 时 , PCI 核 心 在 内 存 中 创建 一 个 pci_dev 
类 型 的 结构 变量 。pci_dev 结构 的 部 分 内 容 如 下 所 示 : 


struct pci_dev { 
A 
unsigned int devfn; 
unsigned short vendor; 
unsigned short device; 
unsigned short subsystem vendor; 
unsigned short subsystem device; 
unsigned int class; 
A 
struct pci_driver *driver; 
A 
struct device dev; 
Teh 
这 


这 个 PCI 设备 中 与 总 线 相关 的 成 员 将 由 PCI 核心 初始 化 (devfn、vendor、device 
以 及 其 他 成 员 )， 并 且 device 结构 变量 的 parent 变量 被 设置 为 该 PCI 设 备 所 在 的 总 
线 设备 。bus 变量 被 设置 为 指向 pci_bus_type 结构 。 接 着 设置 name 和 bus_id 变 
量 ， 其 值 取决 于 从 PCI 设备 中 读 取 的 名 字 和 ID。 


当 PCI 的 device 结构 被 初始 化 后 ， 使 用 下 面 的 代码 向 驱动 程序 核心 注册 设备 : 


device_ register{&dev->dev); 


在 device_register 国 数 中 , 驱动 程序 核心 对 device 中 的 许多 成 员 进 行 初始 化 , 向 kobject 
核心 注册 设备 的 kobject (这 将 产生 一 个 热 插 拔 事件 ,在 本 章 后 面 的 部 分 讨论 ), 然后 将 
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该 设备 添加 到 设备 列表 中 ,该 设备 列表 为 包含 该 设备 的 父 节点 所 拥有 。 完 成 这 些 工 作 后 ， 
所 有 的 设备 都 可 以 通过 正确 的 顺序 访问 ,并 且 知 道 每 个 设备 都 挂 在 层次 结构 的 哪 一 点 上 。 


接着 设备 将 被 添加 到 与 总 线 相关 的 所 有 设备 链表 中 ， 在 这 个 例子 中 是 pci_bus_type 
链表 。 这 个 链表 包含 了 所 有 向 总 线 注册 的 设备 , 遍历 这 个 链表 , 并 且 为 每 个 驱动 程序 调 
用 该 总 线 的 match 函数 ， 同 时 指定 该 设备 。 对 于 pci_bus_type 总 线 来 说 ，PCI 核心 在 把 
设备 提交 给 驱动 程序 核心 前 ， 将 match 函数 指向 pci_bus_match 函数 。 


pci_bus_match 销 数 将 把 驱动 程序 核心 传递 给 它 的 device 结构 转换 为 pci_dev 结 构 。 
它 还 把 device_driver 结构 转换 为 pci_driver 结构 , 并 且 查 看 设备 和 驱动 程序 中 
的 PCI 设 备 相关 信息 , 以 确定 驱动 程序 是 否 能 支持 这 类 设备 。 如 果 这 样 的 匹配 工作 没 能 
正确 执行 ,该 函数 会 向 驱动 程序 核心 返回 0， 接 着 驱动 程序 核心 考虑 在 其 链表 中 的 下 一 
个 驱动 程序 。 


如 果 匹 配 工 作 圆 满 完 成 , 函数 向 驱动 程序 核心 返回 1。 这 将 导致 驱动 程序 核心 将 device 
结构 中 的 driver 指针 指向 这 个 驱动 程序 ， 然 后 调用 device_driver 结构 中 指定 的 
probe 国 数 。 


在 PCI 驱 动 程序 向 驱动 程序 核心 注册 前 , probe 变量 被 设置 为 指向 pci_device_probe 沁 
数 。 该 函数 将 device 结构 转换 为 pci_dev 结构 ， 并 且 把 在 device 中 设置 的 driver 结 
构 转 换 为 pci_driver 结构 。 它 也 将 检测 这 个 驱动 程序 的 状态 ， 以 确保 其 能 支持 这 个 
设备 (出 于 某 种 原因 ， 这 个 检测 有 点 多 余 )， 增 加 设备 的 引用 计数 ， 然 后 用 绑 定 的 
pci_dev 结构 指针 为 参数 ， 调 用 PCI 驱动 程序 的 probe 函数 。 


如 果 PCI 驱动 程序 的 probe 国 数 出 于 某 种 原因 ， 判 定 不 能 处 理 这 个 设备 ， 其 将 返回 负 的 
错误 值 给 驱动 程序 核心 , 这 将 导致 驱动 程序 核心 继续 在 驱动 程序 列表 中 搜索 , 以 匹配 这 
个 设备 。 如 果 probe 函数 探测 到 了 设备 ， 为 了 能 正常 操作 设备 ， 它 将 做 所 有 的 初始 化 工 
作 ， 然 后 向 驱动 程序 核心 返回 0。 这 会 使 驱动 程序 核心 将 该 设备 添加 到 与 此 驱动 程序 绑 
定 的 设备 链表 中 , 并且 在 sysfs 中 的 drivers 目录 到 当前 控制 设备 之 间 建 立 符 号 链接 。 这 
个 符号 链接 使 得 用 户 知道 哪个 驱动 程序 被 绑 定 到 了 哪个 设备 上 。 该 目录 有 类 似 以 下 的 内 
容 : 


$ tree /sys/bus/pci 
/sys/bus/pci/ 

|-- devices 

| |1-- 0000:00:00.0 -> .. 
| |-- 0000:00:00.1 -> ,， 
| |-- 0000:00:00.2 -> ，、. 
| 1-- 0000:00:02.0 -> .. 
| 
| 


../devices/pci0000:00/0000:00:00.0 
../devices/pci0000:00/0000:00:00.1 
../devices/pci0000:00/0000:00:00.2 
../devices/pci0000:00/0000:00:02.0 
../devices/pci0000:00/0000:00:04.0 
../devices/pci0000:00/0000:00:06.0 


RN ,it 
PO TY 


|-- 0000:00:04.0 -> .. 
|-- 0000:00:06.0 -> .. 
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| |-- 0000:00;07.0 -> ../,../../devices/pci0000:00/0000:00:07.0 
| |-- 0000:00:09.0 -> ../../../devices/pci0000:00/0000:00:09.0 
| |-- 0000:00:09.1 -> ../../../devices/pci0000:00/0000:00:09.1 
| [-- 0000:00:09.2 -> ../../../devices/pci0000:00/0000:00:;09.2 
| [-- 0000:00:0c.0 -> ../../../devices/pci0000:00/0000:00:0c¢.0 
| |-- 0000:00:0f.0 -> ../../../devices/pci0000:00/0000:00:;0f.0 
| 1-- 0000:00:10.0 -> ../../../devices/pci0000:00/0000:00:10.0 
| 1-- 0000:00:12.0 -> ../../../devices/pci0000:;00/0000:00:;12.0 
| |-- 0000:00:13.0 -> ../../../devices/pci0000:00/0000:00:13.0 
| -- 0000:00:14.0 -> ../../../devices/pci0000:00/0000:00:14.0 
“-- drivers 
|-- ALI15x3_IDE 
| `-- 0000:00:0f.0 -> ../../../../devices/pci0000:00/0000:00:0f£.0 
|-- ehci_hca 
| `“-- 0000:00:09.2 -> ../,./../../devices/pci0000:00/0000:00:09.2 
ohci_hcd 


|-- 0000:00:02.0 -> ../../../../devices/pci0000:00/0000:00:02.0 
|-- 0000:00:09.0 -> ../../../..,/devices/pci0000:00/0000;00:09.0 
`-- 0000:00:09.1 -> ../,../../../devices/pci0000:00/0000:00:09.1 
- orinoco_pci 
`-- 0000:00:12.0 -> ../../../../devices/pci0000:00/0000:;00;12.0 
- radeonfb 

`-- 0000:00:14.0 -> ../../../../devices/pci0000:00/0000:00:14.0 
- serial 
-~ trident 

`-- 0000:00:04.0 -> ../../../../devices/pci0000:00/0000:00:04.0 


医 
| 
| 
| 
人 
| 
上 
| 
|- 


删除 设备 


可 以 使 用 多 种 不 同 的 方法 从 系统 中 删除 PCI 设 备 。 所 有 的 CardBus 设备 都 是 真实 的 PCI 
设备 ,只 是 它们 具有 不 同 的 物理 形态 参数 ,内 核 PCI 核 心 对 它们 不 加 以 区 分 。 那 些 允 许 
在 机 器 运行 时 添加 和 删除 PCI 设 备 的 系统 正 用益 流行 ，Linux 也 支持 这 样 的 操作 。 还 有 
一 种 伪 PCI 热 插 拔 驱动 程序 , 它 允许 开发 者 测试 他 们 的 PCI 驱 动 程序 能 否 在 系统 运行 时 
正确 处 理 设备 的 删除 。 这 个 模块 叫做 fakephp, 它 可 以 让 内 核 认为 PCI 设 备 被 拔 走 , 但 
是 它 不 允许 用 户 从 不 具备 这 个 能 力 的 硬件 系统 中 真正 地 移 除 该 PCI 设 备 。 读 者 可 参看 该 
驱动 程序 的 相关 文档 ， 以 了 解 如 何 测试 PCI 驱 动 程序 的 更 多 知识 。 


相对 于 添加 设备 ，PCI 核 心 对 删除 设备 做 了 很 少 的 工作 。 当 删除 一 个 PCI 设 备 时 ， 要 调 
用 pci_remove_bus_device 函数 。 该 函数 做 些 PCI 相关 的 清理 工作 ， 然 后 使 用 指向 
pci_dev 中 的 device 结构 的 指针 ， 调 用 device_unregister 国 数 。 


在 device_unregister 函数 中 ,驱动 程序 核心 只 是 出 除了 从 绑 定 设备 的 驱动 程序 (如 果 有 
设备 绑 定 的 话 ) 到 sysfs 文件 的 符号 链接 ， 从 内 部 设备 链表 中 删除 了 该 设备 ， 并 且 以 
device 结构 中 的 kobject 结构 指针 为 参数 , 调用 kobject_del 函数 。 该 函数 引起 了 用 
户 空间 的 hotplug 调用 ， 表 明 kobject 现在 从 系统 中 删除 ， 然 后 删除 全 部 与 kobject 相关 
的 sysfs 文件 和 sysfs 目录 ， 而 这 些 目 录 和 文件 都 是 kobject 以 前 创建 的 。 
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kobject_del 汞 数 还 周 除 了 设备 的 kobject 引用 。 如 果 该 引用 是 最 后 一 个 (这 意味 着 在 用 
户 空 间 中 , 没有 该 设备 的 sysfs 人 口 文件 保持 打开 状态 ), 就 要 调用 该 PCI 设 备 的 release 
函数 一 一 pci_release_dev。 该 国 数 只 是 释放 了 pci_dev 结构 所 占用 的 空间 。 


做 完 这 些 事后 ， 与 设备 相关 的 所 有 sysfs 入 口 都 被 删除 了 ， 并 且 与 设备 相关 的 内 存 也 被 
释放 。 至 上 比 ，PCI 设备 被 完全 从 系统 中 删除 。 


添加 驱动 程序 


当 调用 pci_register_driver 函数 时 ， 一 个 PCI 驱动 程序 被 添加 到 PCI 核心 中。 与 前 面 添 
加 设备 一 节 中 相似 , 该 函数 只 是 初始 化 了 包含 在 pci_driver 结 构 中 的 device_qdriver 
结构 。 PCI 核 心 用 包含 在 pci_driver 结 构 中 的 device_driver 结 构 指 针 作 为 参数 ， 
在 驱动 程序 核心 内 调用 driver_register 国 数 。 


driver_register 函数 初始 化 了 几 个 device_driver 中 的 锁 , 然后 调用 bus_add_driver 
函数 。 该 函数 按 以 下 步骤 操作 : 


。 ”查找 与 驱动 程序 相关 的 总 线 。 如 果 没 有 找到 该 总 线 ， 函 数 立 刻 返回 。 
。 ”根据 驱动 程序 的 名 字 以 及 相关 的 总 线 ， 创 建 驱动 程序 的 sysfs 目录 。 


。 ”获取 总 线 内 部 的 锁 , 接 着 遍历 所 有 向 总 线 注册 的 设备 ,然后 如 同 添加 新 设备 一 样 ， 
为 这 些 设备 调用 match 函数 。 如 果 match 函数 成 功 , 接着 如 前 面 章 节 所 讲 , 开始 绑 
定 过 程 的 剩余 步 又 。 


删除 驱动 程序 


删除 驱动 程序 是 一 个 简单 的 过 程 ,对 于 PCI 驱 动 程序 来 说 ,驱动 程序 调用 pei_unregister_ 
driver 函数 。 该 函数 只 是 用 包含 在 pci_driver 结构 中 的 Gevice_adriver 结构 作为 
参数 ， 调 用 驱动 程序 核心 国 数 driver_unregister。 


driver_unregister 国 数 通过 清除 在 sysfs 树 中 属于 驱动 程序 的 sysfs 属性 ,来 完成 一 些 基 
本 管理 工作 。 然后 它 遍 历 所 有 属于 该 驱动 程序 的 设备 , 并 为 其 调用 release 函数 。 这 与 前 
面 将 设备 从 系统 中 删除 时 调用 release 函数 一 样 。 


当 所 有 的 设备 与 驱动 程序 脱离 后 ,驱动 程序 代码 使 用 了 下 面 这 两 个 在 逻辑 上 有 点 独特 的 
函数 : 


down (&drv->unload sem); 
up{&drv->unload_sem); 
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在 返回 给 调用 者 前 执行 这 个 操作 。 锁 住 代码 是 因为 在 函数 安全 返回 前 , 代码 需要 等 待 驱 
动 程序 的 所 有 3 引用 计数 为 零 。 模 块 在 被 卸载 的 时 候 ， 几乎 都 要 调用 driver_unregister 图 
数 作为 退出 的 方法 。 只 要 驱动 程序 正在 被 设备 引用 并 且 等 待 这 个 锁 的 解 开 , 模块 就 需要 
保留 在 内 存 中 ， 这 样 ， 内 核 就 能 知道 什么 时 候 可 以 安全 地 把 驱动 程序 从 内 存 中 删除 掉 。 


有 两 个 不 同 的 角度 来 看 待 热 插 拔 。 从 内 核 角度 看 ， 热 插 拔 是 在 硬件 、 内 核 、 内核 驱动 程 
序 之 间 的 交互 。 从 用 户 的 角度 看 ， 热 插 拔 是 在 内 核 与 用 户 之 间 ， 通 过 调用 /sbin/hotplug 
程序 的 交互 。 当 需要 通知 用 户 内 核 中 发 生 了 某 些 类 型 的 热 插 拔 事件 时 , 内 核 才 调用 该 函 
数 。 


动态 设备 

当 系统 正在 运行 时 , 现在 几乎 所 有 的 计算 机 系统 都 能 处 理 设备 的 安装 与 删除 , 在 讨论 这 
个 事实 的 时 候 , 用 得 最 多 的 术语 就 是 热 插 拔 .。 这 与 前 几 年 的 计算 机 系统 有 着 非常 大 的 不 
同 、 那 时 候 程 序 员 都 知道 ， 当 系统 启动 时 需要 扫描 所 有 的 设备 , 也 根本 不 用 担心 在 电源 
关闭 之 前 ,设备 会 被 拔 走 。 现 在 随 着 USB 、CardBus、PCMCIA 、IEEE1394 和 PCI 热 揪 
拔 榨 制 器 的 出 现 ， 要 求 Linux 内 核能 够 可 靠 运 行 ,而 不 管 运行 过 程 中 在 系统 中 添加 或 者 
删除 了 什么 硬件 。 这 给 设备 驱动 程序 作者 增加 了 很 大 的 压力 , 因为 他 们 必须 要 处 理 设备 
被 毫 无 征兆 地 突然 拔 走 的 情况 。 


每 种 不 同 的 总 线 使 用 不 同 的 方法 处 理 设备 的 移 除 。 比 如 当 一 个 PCI、CardBnus 或 者 
PCMCIA 设备 从 系统 删除 时 ， 在 驱动 程序 通过 它 的 remove 函数 被 告 之 此 事 发 生前 ， 会 
留 有 一 段 时 间 。 在 这 发 生 之 前 , 所 有 对 PCI 总 线 的 读 操作 会 返回 全 部 的 字 节 位 。 这 就 意 
味 着 驱动 程序 总 是 要 检查 它们 从 PCI 总 线 那里 读 来 的 数据 值 ， 并 且 能 够 正确 处 理 值 
Oxff, 


这 样 的 例子 可 以 在 drivers/usb/host/ehci-hcd.c 驱动 程序 中 找到 ， 它 是 一 个 USB 2.0 (高 
速 ) 控制 器 卡 的 驱动 。 在 它 的 主要 握手 循环 中 , 通过 下 面 的 代码 来 检测 控制 器 卡 是 否 已 
从 系统 中 拔 掉 : 

result = readl (ptr); 


if (result = = ~{u32)0}) /* 拷 掉 了 硬件 卡 */ 
return -ENODEV:; 


对 USB 驱动 程序 来 说 ， 当 从 系统 中 删除 绑 定 在 USB 驱动 程序 上 的 设备 时 ,任何 发 送 给 
设备 的 未 完成 操作 都 会 失败 ， 并 出 现 错误 -ENODEV。 驱 动 程序 需要 识别 出 该 错误 并 正 
确 删 除 那些 未 完成 的 MO 操作 。 
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热 插 拔 设 备 并 不 仅仅 局 限 在 传统 设备 上 ,比如 鼠标 、 键盘 和 网 卡 。 现在 有 一 些 系统 支 持 
添加 、 删 除 CPU 和 内 存 条 。 幸 运 的 是 Linux 内 核能 正确 处 理 添加 、 删 除 这 样 核心 的 “ 系 
统 ” 设 备 ， 所 以 单独 的 设备 驱动 程序 就 不 用 在 这 些 事情 上 多 虑 了 。 


/sbin/hotplug 工具 


正如 在 本 章 前 面 所 讲述 的 , 当 用 户 向 系统 添加 或 者 删除 设备 时 , 会 产生 热 插 拔 事件 。 这 
会 导致 内 核 调用 用 户 空间 程序 /sbin/hotpiug。 该 程序 是 一 个 典型 的 bash 脚本 程序 , 只 是 
将 执行 权 传递 给 其 他 一 系列 放置 在 /etc/hotpiug.d/ 目录 树 中 的 程序 。 在 大 多 数 Linux 发 
行 版 中 ， 这 个 脚本 具有 与 下 面 类 似 的 代码 : 
DIR="/etc/hotplug.d" 
for I in "${DIR}/$1/"*.hotplug "${DIR}/"default/*.hotplug ; do 
if [ =£ $I 1;. tien 
test ~x $I && $I $1 ; 
正二 
done 
exit 1 


换 句 话说 , 脚本 搜索 所 有 以 .hotpiu8 为 后 缀 的 程序 (它们 有 可 能 是 处 理 这 种 事件 的 ), 并 
调用 它们 ， 向 它们 传递 大 量 的 、 由 内 核 设 置 的 环境 变量 。/sbin/hotplug 脚本 的 工作 细节 
可 以 在 程序 的 注释 中 找到 ,或 者 参看 hotplug(8) 手 册页 。 


正如 前 面 提 到 的 , 当 kobject 被 创建 或 者 删除 时 调用 /sbin/hotplug。 内 核 会 使 用 具有 一 个 
参数 的 命令 行 调用 hotplug 程序 ， 该 参数 就 是 事件 的 名 字 。 核 心 内 核 及 相关 子 系统 也 设 
置 了 一 系列 的 环境 变量 (下 面 讲述 ) 用 来 描述 所 发 生 的 事件 。hotplug 程 序 使 用 这 些 变量 
去 判断 在 内 核 中 发 生 了 什么 ,以 及 对 此 是 否 要 采取 特定 的 行动 。 


传递 给 /sbin/hotplug 的 命令 行 参数 是 热 插 技 事件 的 相关 名 称 ， 由 分 派 给 kobject 的 kset 
来 确定 。 我 们 可 以 调用 kset 的 hotplug_ops 结构 中 的 name 函数 来 设置 这 个 名 字 , 相 
关内 容 在 本 章 前 面 的 部 分 讲 过 了 。 如 果 没 有 提供 这 个 函数 , 或 者 没有 调用 这 个 函数 , 则 
名 字 将 是 kset 的 名 字 。 


为 /sbin/hotplug 设置 的 默认 环境 变量 是 : 
ACTION 
根据 操作 是 创建 对 象 还 是 删除 对 象 ， 设 置 字 符 申 是 “adad” 或 者 是 “remove”。 


DEVPATH 
在 sysfs 文 件 系统 中 的 目录 路 径 , 指向 被 创建 的 或 者 被 删除 的 kobject。 请 注意 sysfs 
文件 系统 的 挂 装 点 并 未 加 入 这 个 路 径 ， 因 此 需要 由 用 户 空间 程序 判断 。 
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SEQNUM 
热 插 拔 事件 的 序号 。 序 号 是 一 个 64 位 的 编号 ， 随 着 热 插 拔 事件 的 发 生 ， 该 编号 也 
随 着 增长 。 这 就 使 得 用 户 空间 能 够 按照 内 核 创建 的 顺序 , 为 热 插 拔 事件 排队 , 当然 
在 用 户 空间 程序 也 可 以 不 按 顺 序 处 理 。 

SUBSYSTEM 
与 上 面 描述 相同 ， 是 传递 给 命令 行 的 字符 串 参数 。 


当 系统 中 与 总 线 相关 的 设备 被 添加 或 者 删除 时 , 许多 不 同 总 线 子 系统 都 向 /sbin/hotplug 
程序 添加 它们 自己 的 环境 变量 。 这 一 工作 通过 赋予 所 属 总 线 (如 在 “ 热 插 拔 操作 ”一 节 
所 讲 ) 的 kset_hotplug_ops 结构 中 指定 完成 这 一 工作 的 hotplug 回调 函数 完成 。 这 
就 使 得 当 总 线 发 现 设备 时 , 用 户 空间 能 够 自动 调用 任何 能 控制 该 设备 的 模块 。 下 面 是 一 
个 不 同类 型 总 线 的 清单 ， 以 及 添加 给 /sbin/hotplug 调用 的 环境 变量 。 


IEEE1394 (FireWire) 


在 IEEE1394 总 线 一 一 也 称 之 为 “火线 (FireWire )” 上 的 任何 设备 ,将 /sbin/hotplug 
的 参数 名 和 SUBSYSTEM 环境 变量 设置 为 ieee1394。ieee1394 子 系统 总 是 添加 下 面 
五 个 环境 变量 : 


VENDOR_ID 

IEEE1394 设备 的 24 位 厂商 ID。 
MODEL_ID 

IEEE1394 设备 的 24 位 型 号 ID。 
GUID 

设备 的 64 位 GUID。 
SPECIFIER_ID 

指定 设备 协议 所 有 者 的 24 位 ID。 
VERSION 


指定 设备 协议 版 本 号 的 值 。 


网 络 
当 网 络 设备 在 内 核 中 注册 和 注销 时 ， 所 有 的 网 络 设备 都 产生 热 插 拔 事 件 。/sbin/hotpiug 
程序 将 参数 名 和 SUBSYSTEM 环境 变量 设置 为 net ， 并 且 添 加 下 面 的 环境 变量 : 


INTERFACE 
向 内 核 注册 或 者 注销 的 接口 名 称 。 该 值 的 例子 有 1o 和 eth0。 
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PCI 


在 PCI 总 线 上 的 所 有 设备 将 参数 名 和 SUBSYSTEM 环境 变量 设置 为 pci。PCI 子 系统 添 
加 下 面 四 个 环境 变量 : 
PCI_CLASS 

以 十 六 进 制 表示 的 PCI 类 号 。 
PCIID 

以 十 六 进 制 表示 的 PCI 厂商 和 设备 ID ， 按 照 vendor :device 形式 组 合 。 
PCI_SUBSYS_ID 

PCI 子 系统 厂商 和 子 系统 设备 ID ,按照 subsys_vendor:subsys_device 形 式 组 合 。 
PCI_SLOT_NAME 


内 核 给 设备 的 PCI 槽 的 名 字 。 它 以 domain:bus:slot:function 的 方式 组 合 , 比如 
0000:00:0G.0。 


输入 


对 于 所 有 的 输入 设备 〈 鼠 标 、 键 盘 、 游 戏 杆 ) ， 当 设备 从 内 核 中 添加 或 删除 时 ， 都 要 产 
生 热 插 拔 事件 。/spin/hotplag 参数 和 SUBSYSTEM 环 境 变量 都 设置 为 nput。 输入 子 系 
统 都 会 添加 下 面 的 环境 变量 : 


PRODUCT 
一 个 用 十 六 进 制 表示 、 没 有 前 置 零 的 多 值 字符 串 列表 值 。 它 有 如 下 的 格式 : 


bustype:vendor :product:version。 


如 果 设 备 支 持 ， 会 有 下 面 的 环境 变量 : 


NAME 
设备 给 出 的 输入 设备 名 。 

PHYS 
输入 子 系统 分 配给 设备 的 物理 地 址 。 它 被 认为 是 固定 的 , 这 将 取决 于 设备 插入 的 总 
线 位 置 。 
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LED 
SND 
FF 


它们 都 是 输入 设备 描述 符 ， 如 果 输 入 设备 支持 ， 将 设置 正确 的 值 。 


USB 


任何 在 USB 总 线 上 的 设备 , 都 将 把 参数 名 和 SUBSYSTEM 环 境 变量 设置 为 usb。USB 子 
系统 也 总 是 添加 下 面 的 环境 变量 : 


PRODUCT 
以 iavendor/iGProduct/bcdapevice 格 式 表示 的 字符 串 , 用 来 指定 这 些 USB 的 设 
备 相关 成 员 。 

TYPE 
以 bDeviceClass/bDeviceSubClass/bDeviceProtocol 格 式 表示 的 字符 串 , 用 来 
指定 这 些 USB 的 设备 相关 成 员 。 


如 果 bDeviceclass 成 员 设置 为 0， 则 还 要 设置 下 面 的 环境 变量 : 


INTERFACE 
以 bInterfaceClass/bInterfaceSubCclass/bInterfaceProtocol 格 式 表示 的 字 
符 串 ， 用 来 指定 这 些 USB 的 设备 相关 成 员 。 


如 果 使 用 了 内 核 编译 选项 CONFIG_USB_DEVICEFS ,就 会 将 usbfs 文 件 系统 编译 进 内 
核 ， 则 还 需要 设置 下 面 的 环境 变量 : 


DEVICE 
显示 设备 在 usbfs 文件 系统 中 位 置 的 字符 串 。 该 字符 串 使 用 /proc/bus/usb/ 
USB_BUS_NUMBER/USB_DEVICE_NUMBER 格 式 , 其 中 USB_BUS_NUMBER 是 拥有 设备 的 
USB 总 线 的 三 位 数 号 码 ，USB_DEVICE_NUMBER 是 内 核 分 配给 USB 设备 的 三 位 
数 号 码 。 


SCSI 


当 从 内 核 中 创建 或 者 删除 任何 SCSI 设备 的 时 候 ， 设 备 会 产生 一 个 热 插 拔 事件 。 调 用 
/sbin/hotplug 程序 的 参数 名 称 以 及 SUBSYSTEM 环 境 变 量 设 置 为 scsi。SCSI 系 统 不 再 
添加 其 他 的 环境 变量 , 但 这 里 提请 读者 注意 的 是 , 有 一 个 SCSI 相 关 的 用 户 空间 脚本 , 用 
来 判断 为 这 个 SCSI 设备 装载 什么 样 的 SCSI 驱动 程序 ( 磁盘 、 磁 带 、 通 用 等 等 )。 
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便携 对 接站 


如 果 从 正在 运行 的 Linux 系统 中 添加 或 者 删除 一 个 支持 即 插 即 用 的 便携 对 接站 (将 笔记 
本 插入 或 者 拔 出 对 接站 )， 会 产生 一 个 热 插 拔 事件 。 调 用 /sbin/hoiplug 程序 的 参数 名 称 
以 及 SUBSYSTEM 环境 变量 设置 为 aock。 除 此 之 外 ， 不 会 设置 其 他 环境 变量 。 


S/390 和 zSeries 


在 S1390 体 系 架构 中 ,通道 总 线 体 系 架构 支持 大 量 的 硬件 设备 ， 当 从 Linux 虚拟 系统 中 
添加 或 者 删除 这 些 设备 时 ,都 能 产生 /sbin/hotplug 事件 。 这些 设 备 将 /sbin/horplug 的 参 
数 名 称 以 及 SUBSYSTEM 环境 变量 设置 为 dasd。 除 此 之 外 ， 不 会 设置 其 他 环境 变量 。 


使 用 /sbin/hotplug 


现在 ， 当 向 内 核 添加 或 者 删除 任何 设备 时 ，Linux 内 核 将 调用 /sbin/hortpliug， 为 此 ， 用 
户 空间 存在 许多 有 用 的 工具 以 便利 用 这 一 特性 。 其 中 两 个 最 有 用 的 工具 是 Linux Hotplug 
( 热 插 拔 ) 脚本 和 udev。 


Linux 热 插 拔 脚本 


Linux 热 插 拔 脚本 作为 /sbin/pnotpin8 程序 的 第 一 个 用 户 而 启动 。 这 些 脚本 在 内 核 中 搜索 
那些 为 描述 设备 而 设置 的 不 同 的 环境 变量 ,从 而 发 现 设备 并 为 其 找到 与 之 匹配 的 内 核 模 
块 。 


正如 前 面 所 述 , 当 一 个 驱动 程序 使 用 MODULE_DEVICE_TRBLE 宏 时 ，qepmod 程 序 使 
用 这 些 信 息 并 创建 了 /lib/module/KERNEL_VERSION/modules.*+map 文件 。“*” 将 根据 
驱动 程序 所 支持 总 线 的 不 同 而 不 同 。 现 在 为 驱动 程序 而 生成 的 模块 映像 文件 可 以 很 好 地 
支持 PCI、USB、IEEE1394、INPUT、ISAPNP 和 CCW 子 系统 了 。 


热 插 拔 脚 本 使 用 这 些 模块 的 映像 文本 文件 来 判断 ,为 支持 内 核 最 新 发 现 的 设备 要 装载 什 
么 模块 。 它 们 加 载 所 有 的 模块 ,而 不 是 只 加 载 第 一 个 匹配 的 模块 后 就 停止 ,为 的 是 让 内 
核 找到 工作 状况 最 良好 的 模块 。 当 设备 被 删除 时 , 这 些 脚本 并 不 印 载 任何 模块 。 如 果 此 
时 它们 要 印 载 模块 , 由 于 控制 着 被 删除 设备 的 驱动 程序 可 能 还 控制 着 其 他 设备 , 因而 可 
能 会 导致 其 他 设备 的 意外 关闭 。 


请 注意 , 现在 modprobe 程 序 可 以 直接 从 模块 内 读 取 MODULE_DEVICE._TABLE, 而 不 
需要 使 用 模块 映像 文件 ， 热 插 氢 脚本 可 以 认为 是 对 modprobe 程序 的 简单 包装 。 
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udev 


在 内 核 中 建立 统一 的 坚 动 程序 模型 的 一 个 主要 原因 是 ,人 允许 用 户 空间 用 动态 的 方法 管理 
/dev 目 录 。 通过 在 用 户 空间 中 实现 devfs, 这 个 目的 已 经 达到 , 但 是 由 于 缺乏 积极 的 维护 
和 一 些 不 可 修改 的 bug， 它 的 代码 基础 已 经 逐渐 衰弱 。 许 多 内 核 开 发 者 意识 到 ， 如 有 果 要 
把 所 有 的 设备 信息 输出 到 用 户 空间 ， 就 要 对 整个 /dev 进行 必要 的 管理 。 


在 devfs 的 设计 中 ， 有 一 些 致命 的 缺陷 。 它 需要 修改 每 个 设备 的 驱动 程序 以 支持 它 ， 并 
且 还 需要 设备 驱动 程序 指定 /dev 目 录 树 中 的 名 称 和 位 置 。 它 还 不 能 正确 处 理 动态 的 主 设 
备 号 和 次 设备 号 , 另外 它 还 不 允许 用 户 空间 使 用 简单 的 方法 改写 设备 名 字 , 从 而 强制 要 
求 设备 命名 规则 保存 在 内 核 中 ,而 不 是 用 户 空间 中 。Linux 内 核 开发 者 对 在 内 核 中 保存 
规则 深恶痛绝 ,并 且 由 于 devfs 的 命名 规则 不 符合 Linux Standard Base 规 范 ， 使 得 他 们 
非常 烦恼 。 


随 着 Linux 内 核 被 安装 在 大 型 服务 器 上 ， 许 多 用 户 都 遇 到 了 如 何 管理 大 量 设备 的 问题 。 
拥有 10 000 个 独立 设备 的 磁盘 阵列 提出 了 非常 难 解决 的 问题 : 如 何 确保 特定 的 磁盘 未 
远 保持 特定 的 名 字 , 而 与 被 放 在 磁盘 阵列 中 的 位 置 和 被 内 核发 现 的 时 间 无 关 。 同样 的 问 
题 也 困扰 着 桌面 系统 的 用 户 , 当 他 们 将 两 个 USB 打 印 机 安装 到 系统 上 后 , 才 发 现 无 法 保 
证 重新 启动 系统 后 原来 分 配给 一 台 打印 机 的 /dewipt0 不 被 分 配给 另 一 台 。 


因此 xdev 出 现 了 。 它 依赖 于 sysfs 输出 到 用 户 空间 的 所 有 设备 信息 ,以 及 当 设 备 添加 或 
者 删 时 ，/sbin/hotpiug 对 它 的 通知 。 比 如 为 给 定 的 设备 命名 等 一 些 决策 方法 ， 可 以 在 内 
核 空间 以 外 的 用 户 空间 指定 。 这 保证 了 能 从 内 核 中 删除 命名 规则 , 并 且 人 允许 在 为 每 个 设 
备 命名 时 具有 很 大 的 灵活 性 。 


关于 如 何 使 用 和 配置 wdev， 请 参看 发 行 版 中 udev 软件 包 内 的 文档 。 


为 了 让 wdev 能 够 正常 工作 ,一 个 设备 驱动 程序 要 做 的 所 有 事情 是 : 通过 sysfs 将 驱动 程 
序 所 控制 设备 的 主 设备 号 和 次 设备 号 导出 到 用 户 空间 。 对 于 那些 使 用 子 系统 分 配 主 设备 
号 和 次 设备 号 的 驱动 程序 , 该 工作 已 经 由 子 系统 完成 ,驱动 程序 不 用 做 任何 事 。 这样 的 
子 系统 例子 有 tty、misc、usb、input、scsi、block、i2c、network 和 frame buffer 子 系 
统 。 如 果 驱 动 程序 通过 调用 cdev_init 函数 或 者 是 老 版 本 的 register_chrdev 函 数 , 自己 处 
理 获得 的 主 设备 号 和 次 设备 号 ,那么 为 了 能 正确 使 用 udev, 需要 对 驱动 程序 进行 修改 。 


udev 在 sysfs 中 的 /class/ 目录 树 中 搜索 名 为 daev 的 文件 , 这 样 内 核 通 过 /sbin/hotplug 接 
口 调用 它 的 时 候 , 就 能 获得 分 配给 特定 设备 的 主 设备 号 和 次 设备 号 。 一 个 设备 驱动 程序 
只 需要 为 它 所 控制 的 每 个 设备 创建 该 文件 。class_simple 接口 是 完成 这 件 工作 的 最 
简单 方法 。 
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如 同 在 “class_simple 接 日 ”一 节 中 提 到 的 , 使 用 class._simple 接 口 的 第 一 步 是 通过 
class_simple_create 国 数 创建 class_simple 结 构 : 
static struct class_simple *foo_class; 
foo_class = class. simple._create (THIS MODULE, "foo"); 
if (IS_ERR(foo_class)) { 
printk(KERN_ERR "Error creating foo class.\n"); 


goto error; 


} 
这 段 代码 在 sysfs 中 的 /sys/class/foo 下 创建 一 个 上 且 录 。 


当 驱 动 程序 发 现 一 个 设备 时 , 并 且 已 经 像 第 三 章 中 介绍 的 那样 分 配 了 一 个 次 设备 号 , 轻 
动 程序 将 调用 cilass_simple_device_add 函数 : 
class_simple_device_adq(foo_class，MKDEV(FOO_MRJOR，minor)，NULL， "foo%d", minor); 


这 上段 代 码 在 /sys/class/foo 下 创建 一 个 子 目 录 fooN, 这 里 NN 是 设备 的 次 设备 号 。 在 这 个 目 
录 中 创建 一 个 文件 dev， 有 了 这 个 文件 ，udev 就 可 以 为 设备 创建 一 个 设备 节点 。 


当 设 备 与 驱动 程序 脱离 时 ， 它 也 与 分 配 的 次 设备 号 脱离 ， 此 时 需要 调用 
class_simple_device_remove 国 数 删除 该 设备 在 sysfs 中 的 入 口 项 : 





class_simple_device_remove (MKDEV (FOO_MAJOR, minor)); 
然后 ， 当 驱动 程序 完全 关闭 时 ， 需 要 调用 class_simple_destroy 函数 删除 先前 由 
class_simple 函数 创建 的 类 : 

class_simple._ destroy (foo. class); 
由 class_simple_device_add 函数 创建 的 dev 文 件 包含 了 主 设备 号 和 次 设备 号 , 它们 被 一 
个 “: ”分开 。 如 果 要 在 子 系 统 class 目录 中 提供 其 他 文件 ， 驱 动 程序 将 不 使 用 


class_simple 接 口 , 而 是 使 用 print_dev_t 函数 为 指定 的 设备 正确 格式 化 主 设备 号 和 次 
设备 号 。 


处 理 固件 


作为 一 个 驱动 程序 作者 , 可 能 会 发 现 对 于 某 些 设备 , 必须 先 杷 固件 下 载 到 设备 后 , 它 才 
能 正常 工作 。 在 硬件 市 场 上 的 竞争 非常 激烈 , 制造 商 不 愿 为 设备 控制 固件 多 用 任何 一 点 
EEPROM 。 因 此 固件 一 般 在 随 硬 件 发 行 的 CD 上 ， 操 作 系 统 负 责 将 固件 传递 到 设备 上 。 


使 用 类 似 下 面 的 声明 来 处 理 团 件 问题 : 
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static char my_firmware[] = { Ox34, Ox78, Oxa4, ... }; 


但 是 这 个 解决 方法 几乎 是 一 个 错误 。 将 固件 代码 放 入 虹 动 程序 会 使 驱动 程序 代码 膨胀 ， 
使 得 固件 升级 困难 , 并 容易 导致 许可 证 问题 。 供 货 商 发 布 遵循 GPL 的 固件 映像 文件 是 非 
常 不 可 靠 的 , 将 其 与 GPL 代 码 混合 起 来 通常 是 个 错误 。 因此 不 要 把 包含 固件 的 驱动 程序 
放 入 内 核 ， 或 者 包含 在 Linux 发 行 版 中 。 


内 核 固 件 接口 


正确 的 做 法 是 当 需 要 的 时 候 , 从 用 户 空间 获得 固件 。 一定 不 要 从 内 核 空 间 直接 打开 一 个 

包含 固件 的 文件 。 这 是 一 个 隐 含 错误 的 操作 , 因为 它 把 策略 〈 以 文件 名 的 形式 ) 包含 进 

了 内 核 。 相 反 ， 正 确 的 方法 是 使 用 固件 接口 ， 这 些 接 口 就 是 为 了 这 个 目的 而 引入 的 : 
#include <linux/firmware.h> 


int request_firmware{const struct firmware **fw, char *name, 
struct device *device); 


request_firmware 调用 要 求 用 户 空间 为 内 核定 位 并 提供 一 个 固件 映像 文件 ; 我 们 一 会 儿 
将 讲解 它 的 工作 细节 。name 表示 需要 的 固件 ， 通 常 name 是 供应 商 提供 的 固件 文件 名 
称 。 典 型 的 文件 名 如 mmy_Firmware.bin。 如 果 固 件 被 正确 加 载 , 返回 值 是 0 (否则 将 返回 
错误 代码 )，fw 参数 指向 一 个 下 面 的 结构 : 
struct firmware { 
Size_t size; 
u8 *data; 
}; 
该 结构 包含 了 实际 的 固件 , 现在 可 以 把 它 下 载 到 设备 上 了 。 请 注意 这 个 固件 在 用 户 空间 
内 并 未 加 以 检验 , 因此 , 在 将 正确 的 固件 映像 传递 给 硬件 前 , 请 对 其 做 部 分 或 者 全 部 的 
检测 。 设 备 固件 通常 包含 校 验 字符 串 ， 比 如 校 验 和 , 我 们 首先 对 它们 进行 检验 ,然后 才 
能 信任 这 些 数 据 。 


在 把 固件 发 送 到 设备 后 ， 需 要 使 用 下 面 的 函数 释放 内 核 中 的 结构 : 


void release_firmware(lstruct firmware *fw); 
由 于 request_firmware 需 要 用 户 空间 的 操作 , 因此 在 返回 前 它 将 保持 睡眠 状态 。 如 果 当 
驱动 程序 必须 要 使 用 固件 ， 而 又 不 能 进入 睡眠 状态 时 ， 可 以 使 用 下 面 的 异步 函数 : 
int request_firmware nowait(struct module *module, 


char *name, struct device *device, void *context, 
void (*cont) (const struct fimmware *fw, void *context)); 


这 里 的 附加 参数 是 module {通常 该 参数 是 THIS_MODULE)、context (并 不 是 固件 
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子 系统 使 用 的 私有 数据 指针 ) 和 cont。 如 果 一 切 正常 ，request_firmware_nowait 将 开 
始 固件 加 载 过 程 并 返回 0。 过 一 段 时 间 后 , 将 使 用 加 载 的 结果 作为 参数 调用 cont 。 如果 
由 于 某 些 原因 固件 加 载 失败 ， 则 fw 是 NULL。 


工作 原理 


固件 子 系统 使 用 sysfs 和 热 插 拔 机 制 工 作 。 当 调用 request firmware 时 ,在 /sys/class/ 
firmware 下 将 创建 一 个 目录 ,该 目录 使 用 设备 名 作为 它 的 目录 名 ,该 目录 包含 三 个 属性 : 


loading 
该 属性 由 负责 装载 固件 的 用 户 空 间 进程 设置 为 !。 当 装载 过 程 完毕 时 , 它 将 被 设置 
为 0。 将 1oading 设置 为 -1， 将 终止 固件 装载 过 程 。 

data 
data 是 一 个 二 进 制 属性 ， 用 来 接收 固件 数据 。 在 设置 完 l1oading 后 ， 用 户 空 间 
进程 将 把 固件 写 人 该 属性 。 


device 


该 属性 是 到 /sys/devices 下 相应 入 口 的 符号 链接 。 


一 旦 sysfs 人 口 被 创建 ， 内 核 将 为 设备 产生 热 插 拔 事件 。 传 递 给 热 插 拔 处 理 程序 的 环境 
包括 一 个 FIRMWARE 变量 , 它 将 设置 为 提供 给 request_firmware 的 名 字 。 处 理 程序 定位 
固件 文件 , 使 用 所 提供 的 属性 把 固件 文件 拷贝 到 内 核 。 如 果 不 能 发 现 固件 文件 , 处 理 程 
序 将 设置 loading 属性 为 -1。 


如 果 在 10 秒 钟 之 内 不 能 为 固件 的 请 求 提 供 服务 ,内 核 将 放弃 努力 并 向 驱动 程序 返回 错误 
状态 。 这 个 超时 值 可 以 通过 修改 sysfs 属性 /sys/class/firmwareltimeout 来 改变 。 


request_firmware 接口 允许 使 用 驱动 程序 来 发 布设 备 的 固件 。 当 正确 地 整合 进 热 插 找 机 
制 后 ， 固 件 加 载 子 系统 允许 设备 不 受 干扰 地 工作 。 很 明显 这 是 处 理 该 问题 的 最 好 方法 。 


然而 还 有 一 点 要 特别 注意 : 不 能 在 没有 制造 商 许 可 的 情况 下 发 行 设备 的 固件 。 一 些 制造 
商 同意 在 某 些 条 款 保护 下 授权 许可 使 用 他 们 的 固件 ， 而 一 些 制造 商 就 不 是 那么 配合 了 。 
无 论 哪 种 情况 , 没有 他 们 的 许可 就 拷贝 和 发 行 他 们 的 固件 , 是 违反 版 权 法 的 , 这 可 能 会 
引起 麻烦 。 


快速 索引 


在 本 章 中 已 经 介绍 了 许多 函数 ， 这 里 是 对 它们 的 一 个 总 结 。 
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kobject 


#include <linux/kobject.h> 
包含 文件 中 包含 了 对 kobject 的 定义 ,以 及 相关 的 结构 和 范 数 。 


void kobject_init(struct kobject *kobj); 
int kobject_set _ name(struct kobject *kobj, const char *format, ...); 


kobject 的 初始 化 函数 。 


struct kobject *kobject_get (Struct kobject *kobj); 
void kobject_put (struct kobject *kobj); 
管理 kobject 引用 计数 的 函数 。 


struct kobj_type; 

struct kobj_type *get_ktype{lstruct kobject *kobj); 
对 包含 kobject 的 结构 类 型 的 描述 ， 使 用 get_krype 获得 与 指定 kobject 相关 的 
kobj_type。 

int kobject_add(struct kobject *kobj); 

extern int kobject_register(struct kobject *kobj); 

void kobject_adqel (struct kobject *kobj); 

void kobject_unregister (Struct kobject *kobj); 
kobject_add 向 系统 添加 kobject, 处 理 kset 成 员 关系 , sysfs 表 述 以 及 产生 热 插 拔 事 
件 。kobject_register 函数 是 kobject_init 和 kobject_add 的 组 合 。 使 用 kobject_del 
删除 一 个 kobject ,或 者 使 用 kobject_unregister 函 数 , 它 是 kobject_del 和 kobject_put 
的 组 合 。 

void kset_init(Struct kset *kset); 

int kset_add{struct kset *kset); 

int kset_register(struct kset *kset); 

void kset_unregister (Struct kset *kset); 


kset 的 初始 化 和 注册 函数 。 
decl_subsys (name, type, hotplug_ops); 
使 声明 子 系统 得 以 简化 的 宏 。 


void subsystem_init (struct subsystem *subsys}); 

int subsystem register(struct subsystem *subsys); 
void subsystem unregister(struct subsystem *subsys); 
struct subsystem *subsys_get{struct subsystem *subsys) 
void subsys_put (struct subsystem *subsys); 


对 子 系统 的 操作 。 
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sysfs 操作 


#include <linux/sysfs.h> 
包含 sysfs 声明 的 包含 文件 。 


int sysfs_create filel(struct kobject *kobj, struct attribute *attr); 

int systfs_ remove_file(struct kobject *kobj, struct attribute *attr); 

int sysfs_create bin file(Struct kobject *kobj, struct bin attribute *attr); 

int sysfs_remove bin file(struct kobject *kobj, struct bin attribute *attr); 

int sysfs_create_ link(struct kobject *kobj, struct kobject *target, char 
*name); 

void sysfs_remove_link(struct kobject *kobj, char *name); 


添加 或 删除 与 kobject 相关 属性 文件 的 函数 。 


总 线 、 设 备 和 驱动 程序 


int bus_register (Struct bus_type *bus); 
void bus_unregister (Struct bus_type *bus); 


在 设备 模型 中 实现 总 线 注册 和 注销 的 函数 。 


int bus_for_each_ dev (struct bus_type *bus, struct device *start, void *data, 
int {*fn) {struct device *, void *)); 

int bus_for_each_dhrv(struct bus_type *bus, struct device driver *start, void 
*data, int (*fn) (struct device driver *, void *)); 


这 些 函 数 分 别 遍 历 附 属于 指定 总 线 的 每 个 设备 和 驱动 程序 。 


BUS_RATTR (name, mode, show, store); 

int bus_create_file(struct bus_type *bus, struct bus_attribute *attr); 

void bus_remove_file(struct bus_type *bus, struct bus_attribute *attr); 
使 用 宏 BUS_ATTR 声明 了 一 个 bus_attribute 结 构 , 使 用 上 面 的 两 个 函数 可 对 
该 结构 进行 添加 和 删除 。 

int device_register(struct device *dev); 

void device unregister(struct device *dev); 
处 理 设备 注册 的 函数 。 

DEVICE_ATTR (name, mode, show, store); 

int device create file{struct device *device, struct device attribute *entry); 

void device_ remove file(struct device *dev, struct device attribute *attr); 


处 理 设备 属 性 的 宏和 函数 。 
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int driver registerl(struct device driver *drv); 


void driver_ unregister(struct device_driver *drv}); 
注册 和 注销 设备 驱动 程序 的 函数 。 


DRIVER_ATTR (name, mode, show, store); 

int driver_create_filel(struct device driver *drv, struct driver attribute 
*attr); 

void driver_remove filel(struct device_driver *drv, struct driver attribute 
*attr)y 


管理 驱动 程序 属性 的 宏和 函数 。 


类 


struct class_simple *class_simple_create(struct module *owner, char *name); 
void class_simple_ destroy (struct class_simple *cs); 
struct class device *class, simple device add{(struct class_simple *cs, dev_t 
dewnum, struct device *device, const char *fmt, ...); 
void class. simple_device_remove(ldev_t dev); 
int class_simple_ set_hotplug (struct class_simple *cs, int (*hotplug) (struct 
class_device *dev, char **envp, int num envp, char *buffer, int 
buffer_size)); 
实现 class_simple 接 口 的 函数 ; 它们 管理 了 包含 dev 属 性 和 其 他 内 容 在 内 的 简 
单 类 入 口 。 


int class_register(struct class *cls)}; 
void class unregisterl(struct class *cls); 


注册 和 注销 类 。 


CLASS,_ATTR (name, mode, show, store); 

int class_create_file(struct class *cls, const struct class_attribute *attr); 

void class_remove file(struct class *cls, const struct class attribute *attr); 
处 理 类 属性 的 常用 宏和 函数 。 


int class_dqevice_register (Struct Class_device *cd); 

void class device unregister (Struct class_device *cd); 

int class_device_rename (Struct class_device *cd, char *new_name); 
CLASS_DEVICE_ATTR (name, mode, show, store); 
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int class_device create_filel(struct class_device *cls, const struct 
class device_attribute *attr); 
void class_device remove_filel(struct class_device *cls, const struct 


class_device_attribute *attr); 


实现 类 设备 接口 的 函数 和 宏 。 


int class_interface register(struct class_ interface *intf); 


void class_interface_unregister(struct class_interface *intf); 


向 类 添加 (或 者 删除 ) 接口 的 函数 。 


固件 


#include <linux/firmware.h> 
int request_ firmware{(const struct firmware **fw, char *name, struct device 
*device); 
int request_ firmware nowait {struct module *module, char *name, struct device 
*device, void *context, void (*cont) (const struct firmware *fw, void 
*context)); 
void release firmware(struct firmware *fw); 


内 核 中 实现 固件 加 载 的 接口 函数 。 


第 十 五 章 
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本 章 将 探讨 Linux 内 存 管理 ,并 将 重点 放 在 对 设备 驱动 程序 编写 者 有 价值 的 技术 上 。 许 
多 类 型 的 驱动 程序 编程 都 需要 了 解 一 些 虚拟 内 存 子 系统 如 何 工作 的 知识 ; 当 遇 到 更 为 复 
杂 、 性 能 要 求 更 为 苛刻 的 子 系统 时 ,本 章 所 讨论 的 内 容 迟 早 都 要 用 到 。 虚 拟 内 存 子 系统 
,是 Linux 内 核 中 非常 有 趣 的 一 部 分 ， 因 此 应 当 在 这 里 花 上 一 些 时 间 。 


本 章 的 内 容 分 为 三 个 部 分 : 


。 ”第 一 部 分 讲述 了 mmap 系 统 调用 的 实现 过 程 . 该 系统 调用 直接 将 设备 内 存 映射 到 用 
户 进 程 的 地 址 空间 里 。 虽然 不 是 所 有 设备 都 需要 mmap 的 支持 , 但 是 对 一 些 设备 来 
说 ， 设 备 内 存 映射 能 显著 地 提高 性 能 。 

。 ”然后 从 另外 一 个 角度 , 讲述 如 何 跨越 边界 直接 访问 用 户 空间 的 内 存 页 。 - 些 相关 的 
蝶 动 程序 需要 这 种 能 力 ; 在 许多 情况 下 , 内 核 执行 了 该 种 映射 ， 而 无 需 驱 动 程序 的 
参与 。 但 是 了 解 用 户 空间 内 存 如 何 映射 到 内 核 中 的 方法 (使 用 get_user_pages) 对 
我 们 很 有 帮助 。 

。 ”最 后 讲述 了 直接 内 存 访问 (DMA) IO 操作 ， 它 使 得 外 设 具 有 直接 访问 系统 内 存 的 
能 力 。 


系统 的 概述 讲 起 。 


Linux 的 内 存 管理 


了 解 了 必需 的 背景 知识 后 ， 才 能 灵活 运用 这 些 结构 。 
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地 址 类 型 


Linux 是 一 个 虚拟 内 存 系统 , 这 意味 着 用 户 程序 所 使 用 的 地 址 与 硬件 使 用 的 物理 地 址 是 
不 等 同 的。 虚拟 内 存 引 入 了 一 个 间接 层 ， 它 使 得 许多 操作 成 为 可 能 。 有 了 虚拟 内 存 , 在 
系统 中 运行 的 程序 可 以 分 配 比 物理 内 存 更 多 的 内 存 ; 甚至 一 个 单独 的 进程 都 能 拥有 比 系 
统 物理 内 存 更 多 的 虚拟 地 址 空间 .虚拟 地 址 还 能 让 程序 在 进程 的 地 址 空间 内 使 用 更 多 的 
技巧 ， 包 括 将 程序 的 内 存 映 射 到 设备 内 存 上 。 


到 目前 为 止 , 忆 经 讨论 了 虚拟 和 物理 地 址 ， 但 是 忽略 了 大 量 的 细节 。Linux 系统 处 理 多 
种 类 型 的 地 址 , 而 每 种 类 型 的 地 址 都 有 自己 的 语义 。 但 不 幸 的 是 ,在 何 种 情况 下 使 用 何 
种 类 型 的 地 址 ， 内 核 代码 并 未 明确 加 以 区 分 ， 因 此 程序 对 此 要 仔细 处 理 。 


下 面 是 一 个 Linux 使 用 的 地 址 类 型 列表 。 图 15-1 说 明了 这 些 地 址 类 型 与 物理 内 存 之 间 的 
关系 。 


用 户 谭 专 地 二 
这 是 在 用 户 空间 程序 所 能 看 到 的 常规 地 址 。 用 户 地 址 或 者 是 32 位 的 , 或 者 是 64 位 
的 ， 这 取决 于 硬件 的 体系 架构 。 每 个 进程 都 有 自己 的 虚拟 地 址 空间 。 


物理 地 址 
该 地 址 在 处 理 器 和 系统 内 存 之 间 使 用 。 物理 地 址 也 是 32 位 或 者 64 位 长 的 , 在 某 些 
情况 下 甚至 32 位 系统 也 能 使 用 64 位 的 物理 内 存 。 


起 线 地 址 
该 地 址 在 外 围 总 线 和 内 存 之 间 使 用 ,通常 它们 与 处 理 器 使 用 的 物理 地 址 相同 ,但 这 
么 做 并 不 是 必需 的 。 一 些 计算 机 体系 架构 提供 了 IO 内 存 管 理 单元 (IOMMU), 它 
实现 总 线 和 主 内 存 之 间 的 重新 映射 。IOMMU 可 以 用 很 多 种 方式 让 事情 变 得 简单 
(比如 使 内 存 中 的 分 散 缓冲 区 对 设备 来 说 是 连续 的 ), 但 是 当 设置 DMA 操作 时 , 编 
写 IOMMU 相 关 的 代码 是 一 个 必需 的 额外 步骤 。 当 然 总 线 地 址 是 与 体系 架构 密切 相 
关 的。 

内 核 逻 得 地 址 
内 核 逻 辑 地 址 组 成 了 内 核 的 常规 地 址 空间 。 访 地址 映射 了 部 分 (或 者 全 部 ) 内 存 ， 
并 经 常 被 视 为 物理 地 址 。 在 大 多 数 体系 架构 中 , 逻辑 地 址 和 与 其 相关 联 的 物理 地 址 
的 不 同 , 仅仅 是 在 它们 之 间 存 在 一 个 固定 的 偏 移 量 。 逻辑 地 址 使 用 硬件 内 建 的 指针 
大 小 ,因此 在 安装 了 大 量 内 存 的 32 位 系统 中 ， 它 无 法 寻 址 全 部 的 物理 地 址 。 逻 辑 
地 址 通常 保存 在 unsigned long 或 者 void * 这样 类 型 的 变量 中 。kmalloc 返回 的 
内 存 就 是 内 核 逻 辑 地 址 。 
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内 核 庆 拟 地 址 
内 核 虚拟 地 址 和 逻辑 地 址 的 相同 之 处 在 于 ,它们 都 将 内 核 空间 的 地 址 映射 到 物理 地 
址 上 ,内 核 虚拟 地 址 与 物理 地 址 的 映射 不 必 是 线性 的 和 一 对 一 的 , 而 这 是 逻辑 地 址 
空间 的 特点 .所 有 的 逻辑 地 址 都 是 内 核 虚 拟 地 址 , 但 是 许多 内 核 虚拟 地 址 不 是 逻辑 
地 址 。 举 个 例子 ,vmalloc 分 配 的 内 存 具 有 一 个 虚拟 地 址 (但 并 不 存在 直接 的 物理 
映射 )。kmap 函数 (在 本 章 后 面 论述 ) 也 返回 一 个 虚拟 地 址 。 虚 拟 地 址 通常 保存 在 
指针 变量 中 。 
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15-1: Linux 中 使 用 的 地 址 类 型 


如 果 有 一 个 逻辑 地 址 , 宏 _pa()( 在 <asm/page.h> 中 定义 ) 返回 其 对 应 的 物理 地 址 ; 使 
用 宏 _val) 也 能 将 物理 地 址 逆向 映射 到 逻辑 地 址 ， 但 这 只 对 低 端 内 存 页 有 效 。 


不 同 的 内 核 函 数 需 要 不 同类 型 的 地 址 。 如果 在 C 中 已 经 定义 好 了 不 同 的 类 型 ， 那么 需要 
的 地 址 类 型 将 很 明确 , 但 现实 不 是 这 样 的。 在 本 章 中 , 将 明确 表述 在 何 处 使 用 何 种 类 型 
的 地 址 。 


物理 地 址 和 页 
物理 地 址 被 分 成 离散 的 单元 , 称 之 为 页 。 系 统 内 部 许多 对 内 存 的 操作 都 是 基于 单个 页 的 。 
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每 个 页 的 大 小 随 体系 架构 的 不 同 而 不 同 , 但 是 目前 大 多 数 系统 都 使 用 每 页 4096 个 字 节 。 
常量 PAGE_SIZE (在 <asm/page.h> 中 定义 ) 给 出 了 在 任何 指定 体系 架构 下 的 页 大 小 。 


仔细 观察 内 存 地 址 ,无 论 是 虚拟 的 还 是 物理 的 ,它们 都 被 分 为 页 号 和 一 个 页 内 的 偏 移 量 。 
举 个 例子 ， 如 果 使 用 每 页 4096 个 字 节 ,那么 最 后 的 12 位 是 偏 移 量 ,而 剩余 的 高 位 则 指 
定 了 页 与 。 如 果 忽 略 了 地 址 偏 移 基 ,并 将 除去 偏 移 量 的 剩余 位 移 到 右 端 , 称 该 结果 为 页 
帧 数 。 移 动 位 以 在 页 帧 数 和 地 址 间 进 行 转换 是 一 个 常用 操作 ; 宏 PAGE_SHIFT 将 告诉 
程序 员 ， 必 须 移动 多 少 位 才能 完成 这 个 转换 。 


高 端 与 低 端 内 存 


在 装 有 大 量 内 存 的 32 位 系统 中 ,逻辑 和 内 核 虚拟 地 址 的 不 同 将 非常 突出 。 使 用 32 位 只 
能 在 4GB 的 内 存 中 寻 址 。 由 于 这 种 建立 虚拟 地 址 空间 的 问题 ， 直 到 最 近 ，32 位 系统 的 
Linux 仍 被 限制 使 用 少 于 4GB 的 内 存 。 


内 核 (在 x86 体 系 架构 中 , 这 是 默认 的 设置 ) 将 4GB 的 虚拟 地 址 空间 分 割 为 用 户 空间 和 
内 核 空间 ; 在 二 者 的 上 下 文中 使 用 同样 的 映射 。 一 个 典型 的 分 割 是 将 3GB 分 配给 用 户 空 
间 ， 1GB 分 配给 内 核 空间 ( 注 1)。 内 核 代码 和 数据 结构 必须 与 这 样 的 空间 相 匹 配 , 但 是 
占用 内 核 地 址 空间 最 大 的 部 分 是 物理 内 存 的 虚拟 映射 ,内 核 无 法 直接 操作 没有 映射 到 内 
核 地 址 空间 的 内 存 。 换 句 话 说 ， 内 核对 任何 内 存 的 访问 ， 都 需要 使 用 自己 的 虚拟 地 址 。 
因此 许多 年 来 , 由 内 核 所 能 处 理 的 最 大 物理 内 存 数量 , 就 是 将 映射 至 虚拟 地 址 空间 内 核 
部 分 的 大 小 ， 再 减 去 内 核 代码 自身 所 占用 的 空间 。 因 此 ， 基 于 x86 的 Linux 系统 所 能 使 
用 的 最 大 物理 内 存 ， 会 比 1GB 小 一 点 。 


为 了 应 对 商业 压力 , 在 不 破坏 32 位 应 用 程序 和 系统 兼容 性 的 情况 下 , 为 了 能 使 用 更 多 的 
内 存 , 处 理 器 制造 厂家 为 他 们 的 产品 增添 了 “地 址 扩展 ”特性 。 其 结果 是 在 许多 情况 下 ， 
即使 32 位 的 处 理 器 都 可 以 在 大 于 4GB 的 物理 地 址 空间 寻 址 。 然 而 有 多 少 内 存 可 以 直接 
映射 到 逻辑 地 址 的 限制 依然 存在 。 只 有 内 存 的 低 端 部 分 (依赖 与 硬件 和 内 核 的 设置 , 一 
般 为 1 到 2GB) 拥有 逻辑 地 址 ( 注 2); 剩余 的 部 分 (高 端 内 存 ) 是 没有 的 。 在 访问 特定 
的 高 端 内 存 页 前 ， 内 核 必须 建立 明确 的 虚拟 映射 ， 使 该 页 可 在 内 核 地 址 空间 中 被 访问 。 
因此 , 许多 内 核 数据 结构 必须 被 放置 在 低 端 内 存 中 ; 而 高 端 内 存 更 趋向 于 为 用 户 空间 进 
程 页 所 保留 。 





注 1: 许多 非 x86 的 体系 架构 不 需要 这 里 描述 的 内 核 /用 户 空间 分 割 即 可 有 效 工作 , 因此 , 这 些 
体系 架构 在 32 位 系统 上 就 能 获得 4GB 的 内 核 地 址 空间 。 但 是 ， 这 一 小 节 描 述 的 限制 对 
安装 有 多 于 4GB 内 存 的 系统 仍然 适用 。 


注 2: ”2.6 内核 通过 一 个 补丁 可 在 x86 硬件 上 支持 “4G/4G ”模式 ， 它 可 以 让 内 核 和 用 户 虚 拟 地 
址 空间 变 大 ， 但 会 引入 微小 的 性 能 代价 。 
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术语 “高 端 内 存 ” 可 能 对 一 些 人 来 说 理解 起 来 比较 困难 ， 特 别 是 在 PC 世界 中 ， 它 还 有 
着 其 他 的 含义 。 因 此 为 了 弄 清 这 个 问题 ， 这 里 先 对 它 进行 定义 : 


低 端 内 存 
存在 于 内 核 空间 上 的 逻辑 地 址 内 存 。 几乎 所 有 现在 读者 过 到 的 系统 , 它 全 部 的 内 存 
都 是 低 端 内 存 。 


高 奖 内 存 
是 指 那些 不 存在 逻辑 地 址 的 内 存 ， 这 是 因为 它们 处 于 内 核 虚拟 地 址 之 上 。 


在 i386 系 统 中 , 虽然 在 内 核 配置 的 时 候 能 够 改变 低 端 内 存 和 高 端 内 存 的 界限 , 但 是 通常 
将 该 界限 设置 为 小 于 1GB。 这 个 界限 与 早期 PC 中 的 640K 限 制 没有 任何 关系 , 并 且 它 的 
设置 也 与 硬件 无 关 。 相 反 它 是 由 内 核 设置 的 , 把 32 位 地 址 空间 分 割 成 内 核 空间 与 用 户 空 
间 。 


在 后 面 的 部 分 中 ， 将 指出 使 用 高 端 内 存 的 限制 。 


内 存 映 射 和 页 结构 


由 于 历史 的 关系 ,内 核 使 用 人 逻辑 地 址 来 引用 物理 内 存 中 的 页 .然而 由 于 支持 了 高 端 内 存 ， 
就 暴露 出 一 个 明显 的 问题 一 一 在 高 端 内 存 中 将 无 法 使 用 逻辑 地 址 。 因 此 内 核 中 处 理 内 
存 的 函数 趋向 使 用 指向 page 结构 的 指针 (在 <linux/mm.h> 中 定义 )。 该 数据 结构 用 来 
保存 内 核 需要 知道 的 所 有 物理 内 存 信息 ; 对 系统 中 每 个 物理 页 ， 都 有 一 个 page 结构 相 
对 应 。 下 面 介 绍 该 结构 中 包含 的 几 个 成 员 : 


atomic_t count; 
对 该 页 的 访问 计数 。 当 计数 值 为 0 时 ， 该 页 将 返回 给 空闲 链表 。 

void *virtual; 
如 果 页 面 被 映射 ， 则 指向 页 的 内 核 虚拟 地 址 ; 如 果 未 被 映射 则 为 NULL。 低 端 内 存 
页 总 是 被 映射 ; 而 高 端 内 存 页 通常 不 被 映射 。 并 不 是 在 所 有 体系 架构 中 都 有 该 成 
员 ; 只 有 在 页 的 内 核 虚拟 地 址 不 容易 被 计算 时 ， 它 才 被 编译 。 如 果 要 访问 该 成 员 ， 
正确 的 方法 是 使 用 下 面 讲述 的 page_address 宏 。 

unsigned long flags; 
描述 页 状态 的 一 系列 标志 。 其 中 ，PG_1ocked 表示 内 存 中 的 页 已 经 被 锁 住 ， 而 
PG_reserved 表 示 禁 止 内 存 管理 系统 访问 该 页 。 


在 page 结构 中 还 包含 了 许多 信息 ,但 这 是 深层 次 内 存 管理 所 关心 的 问题 ,而 驱动 程序 
作者 不 必要 了 解 。 
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内 核 维 护 了 一 个 或 者 多 个 page 结 构 数 组 , 用 来 跟踪 系统 中 的 物理 内 存 。 在 一 些 系统 中 ， 
有 一 个 单独 的 数组 称 之 为 mem_map。 在 另外 一 些 系 统 中 ， 情 况 将 会 复杂 很 多 。 非 一 致 
性 内 存 访问 (Nonuniform Memory Access，NUMA ) 系统 和 有 大 量 不 连续 物理 内 存 的 
系统 会 有 多 个 内 存 映 射 数 组 ,因此 从 可 移植 性 考虑 ,代码 不 要 直接 访问 那些 数组 。 幸 运 
的 是 ,通常 只 需要 使 用 page 结构 的 指针 ， 而 不 需要 了 解 它 们 是 怎么 来 的 。 


有 一 些 函 数 和 宏 用 来 在 page 结构 指针 与 虚拟 地 址 之 间 进 行 转换 ; 


struct page *virt_to page(void *kaddr); 
该 宏 在 <asm/page.h> 中 定义 , 负责 将 内 核 逻 辑 地 址 转换 为 相应 的 page 结构 指针 。 
由 于 它 需 要 一 个 逻辑 地 址 ， 因 此 它 不 能 操作 vmalloc 生成 的 地 址 以 及 高 端 内 存 。 

struct page *pfn_to pagel{int pfn); 
针对 给 定 的 页 帧 号 ， 返回 page 结构 指针 。 如 果 需 要 的 话 ， 在 将 页 帧 号 传递 给 
pfn_to_page 前 ， 使 用 pfn_valid 检查 页 帧 号 的 合法 性 。 

void *page _address{struct page *page) 
如 果 地 址 存在 的 话 , 则 返回 页 的 内 核 虚拟 地 址 。 对 于 高 端 内 存 来 说 , 只 有 当 内 存 页 
被 映射 后 该 地 址 才 存 在 。 该 函数 定义 在 <linux/mm.h> 中 。 在 大 多 数 情况 下 ， 要 使 
用 kmap 而 不 是 page_address。 

#include <linux/highmem.h> 

void *lkmap (struct page *page); 

void kunmap(struct page *page); 
kmap 为 系统 中 的 页 返回 内 核 虚 拟 地 址 。 对 于 低 端 内 存 页 来 说 ， 它 只 返回 页 的 逻辑 
地 址 ; 对 于 高 端 内 存 , kmap 在 专用 的 内 核 地 址 空间 创建 特殊 的 映射 。 由 kmap 创建 
的 映射 需要 用 kunmap 释放 ; 对 该 种 映射 的 数量 是 有 限 的 , 因此 不 要 持 有 了 映射 过 长 
的 时 间 。kmap 调用 维护 了 一 个 计数 器 ， 因 此 如 果 两 个 或 是 多 个 函数 对 同一 页 调用 
kmap ， 操 作 也 是 正常 的 。 请 注意 当 没 有 映射 的 时 候 ，kmap 将 会 休眠 。 


#include <linux/highmem.h> 

#include <asm/kmap_types.h> 

void *kmap._atomicl(struct page *page, enum km type type); 

void kunmap_atomic (void *addr, enum km_type type); 
kmap_atomic 是 kmap 的 高 性 能 版 本 。 每 个 体系 架构 都 为 原子 的 kmzap 维 护 着 一 个 模 
(专用 页 表 入 日 ) 的 列表 ; kmap_atomic 的 调用 者 必须 告诉 系统 ，type 参数 使 用 的 
是 哪个 槽 。 对 驱动 程序 有 意义 的 槽 只 有 KM_USER0 和 KM_USER1 (针对 在 用 户 空 
间 中 直接 运行 的 代码 ), KM_IRQ0 和 KM_IRQ1 (针对 中 断 处 理 程序 ) 。 要 注意 的 是 
原子 的 kmap 必须 原子 地 处 理 ， 也 就 是 说 , 在 拥有 它 的 时 候 ， 代 码 不 能 进入 睡眠 状 
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态 ,。 还 要 注意 的 是 在 内 核 中 , 没有 任何 机 制 能 防止 这 两 个 函数 使 用 相同 的 槽 , 以 及 
防止 它们 之 间 的 相互 干涉 (虽然 对 每 个 CPU 都 有 一 套 特定 的 槽 )。 在 实际 情况 中 ， 
对 原子 的 kmap 槽 的 争夺 并 不 会 引起 什么 问题 


在 研究 例子 代码 时 ， 以 及 在 本 章 及 后 面 的 章 季 中 ， 读 者 会 看 到 如 何 使 用 这 些 函 数 。 


页 表 


在 任何 现代 的 系统 中 ， 处 理 器 必须 使 用 某 种 机 制 ， 将 虚拟 地 址 转换 为 相应 的 物理 地 址 。 
这 种 机 制 被 称 为 页 表 ; 它 基本 上 是 一 个 多 层 树 形 结构 , 结构 化 的 数组 中 包含 了 虚拟 地 址 
到 物理 地 址 的 映射 和 相关 的 标志 位 。 即 使 在 不 直接 使 用 这 种 页 表 的 体系 架构 中 ，Linux 
内 核 也 维护 了 一 系列 的 页 表 。 


设备 驱动 程序 执行 了 大 量 操作 , 用 来 处 理 页 表 。 幸运 的 是 , 对 驱动 程序 作者 来 说 , 在 2.6 
版 内 核 中 删除 了 对 页 表 直 接 操作 的 需求 。 因此 这 里 不 对 它们 做 详细 讲解 ; 富有 好 奇 心 的 
读者 可 以 阅读 Daniel P. Bovet 和 Marco Cesati 编 写 的 4Understanding The Linux Kernel》 
(O'Reilly) 一 书 了 解 详细 情况 。 


虚拟 内 存 区 


虚拟 内 存 区 (VMA) 用 于 管理 进程 地 址 空间 中 不 同 区域 的 内 核 数 据 结 构 。 一 个 VMA 表 
示 在 进程 的 虚拟 内 存 中 的 一 个 同类 区 域 : 拥有 同样 权限 标志 位 和 被 同样 对 象 (一 个 文件 
或 者 交换 空间 ) 备份 的 一 个 连续 的 虚拟 内 存 地 址 范围 。 它 符合 更 宽泛 的 “ 段 ”的 概念 ， 
但 是 把 其 描述 成 “拥有 自身 属性 的 内 存 对 象 ”更 为 贴切 。 进 程 的 内 存 映 射 (至少) 包含 
下 面 这 些 区 域 : 


。 ”程序 的 可 执行 代码 (通常 称 为 text) 区 域 。 


。 ”多 个 数据 区 ,其 中 包含 初始 化 数据 (在 开始 执行 的 时 候 就 拥有 明确 的 值 )、 非 初始 
化 数据 (BSS， 注 3) 以 及 程序 堆栈 。 


。 ”与 每 个 活动 的 内 存 映射 对 应 的 区 域 。 

查看 /proc/<pidimaps> (其 中 的 pid 要 替换 为 具体 的 进程 ID) 文件 就 能 了 解 进程 的 内 存 
区 域 。 /proc/self 是 一 个 特殊 的 文件 , 因为 它 始 终 指向 当前 进程 。 下 面 是 多 个 内 存 映射 的 
例子 (注释 以 斜体 的 方式 给 出 ) 

注 3: ”B95 这 一 名 称 是 一 个 历史 遗物 ， 来 自 一 条 老 的 汇编 操作 称 为 “block started by symbol 


(符号 定义 的 块 )”。 可 执行 文件 的 BSS 段 并 不 会 存储 在 磁盘 上 ， 而 是 由 内 核 将 堆 页 映射 
到 BSS 地 址 范围 。 
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# cat /proc/li/maps look at init 


08048000-0804e000 r-xp 00000000 03:01 64652 /sbin/init text 
0804e000-0804f000 rw-p 00006000 03:01 64652 /sbin/init data 
0804£000-08053000 rwxp 00000000 00:00 0 Zero-mapped BSS 
A40000000-40015000 r-xp 00000000 03:01 96278 /lib/1d-2.3.2.so text 
40015000-40016000 rw-p 00014000 03:01 96278 /lib/1ld-2.3.2.so data 
40016000-40017000 rw-p 00000000 00:00 0 BSS for ld.so 
42000000-4212e000 r-xp 00000000 03:01 80290 /lib/tls/libc-2.3.2.s0o text 
4212e000-42131000 rw-p 0012e000 03:01 80290 /lib/tls/libc-2.3.2.so data 
42131000-42133000 rw-p 00000000 00:00 0 BSS for libc 
bffff000-c0O000000 rwxp 00000000 00:00 0 Stack segment 
ffffe000-fffff000 ---p 00000000 00:00 0 vsyscall page 

# rsh wolf cat /proc/self/maps  #### x86-64 (trimmed) 

00400000-00405000 r-xp 00000000 03:01 1596291 /bin/cat text 
00504000-00505000 rw-p 00004000 03:01 1596291 /bin/cat data 
00505000-00526000 rwxp 00505000 00:00 0 bss 


3252200000-3252214000 r-xp 00000000 03:01 1237890 /lib64/1d-2.3.3.so 
3252300000-3252301000 r--p 00100000 03:01 1237890 /lib64/1d-2.3.3.s0 
3252301000-3252302000 rw-p 00101000 03:01 1237890 /lib64/1d-2.3.3.,so 


7fbfffe000-7fc0000000 rw-p 7fbfffe000 00:00 0 stack segment 
ffffffffff600000-ffffffffffe00000 ---p 00000000 00:00 0 vsyscall page 
每 行 都 是 用 下 面 的 形式 表示 的 : 


start-end perm offset major:minor inode image 


在 /proci*/imaps 中 的 每 个 成 员 ( 除 映像 名 外 ) 都 与 vm_area_struct 结构 中 的 一 个 成 
员 相 对 应 : 


start 


end 


该 内 存 区 域 的 起 始 处 和 结束 处 的 虚拟 地 址 。 


perm 
内 存 区 域 的 读 、 写 和 执行 权限 的 位 掩 码 . 该 成 员 描 述 了 允许 什么 样 的 进程 能 访问 属 
于 该 区 域 的 页 。 该 成 员 的 最 后 一 个 字母 或 者 是 pp 表示 私有 ， 或 者 是 s 表示 共享 。 


offset 
表示 内 存 区 域 在 映射 文件 中 的 起 始 位置 。 偏 移 量 为 0 表示 内 存 区 域 的 起 始 位 置 映射 
到 文件 的 开始 位 置 。 


major 


minor 
拥有 了 映射 文件 的 设备 的 主 设备 号 和 次 设备 号 。 对 于 设备 映射 来 说 , 主 设备 号 和 次 设 
备 号 指 的 是 包含 设备 特殊 文件 的 磁盘 分 区 ， 该 文件 由 用 户 而 非 设备 自身 打开 。 
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inode 
被 映射 的 文件 的 索引 节点 号 。 
image 


被 映射 文件 (通常 是 一 个 可 执行 映像 ) 的 名 称 。 


vm_area_struct 结构 


当 用 户 空间 进程 调用 mmap， 将 设备 内 存 映射 到 它 的 地 址 空间 时 ， 系 统 通 过 创建 一 个 表 
示 该 映射 的 新 VMA 作为 响应 。 支 持 mmap 的 驱动 程序 当然 要 实现 mmap 方法 ) 需要 
帮助 进程 完成 VMA 的 初始 化 。 因 此 驱动 程序 作者 为 了 能 支持 mmap, 需要 对 VMA 有 所 
了 解 。 


现在 来 学 习 vm_area_struct 结 构 (在 <linux/mm.h> 中 定义 ) 中 最 重要 的 成 员 。 在 设备 
驱动 程序 对 mmap 的 实现 中 会 使 用 到 这 些 成 员 。 请 注意 ,为 优化 查找 方法 ,内 核 维护 了 
VMA 的 链表 和 树 型 结构 , 而 vm_area_struct 中 的 许多 成 员 都 是 用 来 维护 这 个 结构 的 。 
因此 驱动 程序 不 能 任意 创建 VMA，, 或 者 打破 这 种 组 织 结构 。VMA 的 主要 成 员 如 下 所 示 
(请 注意 这 些 成 员 和 刚才 看 到 的 /proc 文件 输出 之 间 的 区 别 ): 


unsigned long vm start; 

unsigned long vm_end; 
该 VMA 所 覆盖 的 虚拟 地 址 范围 。 这 是 /proc/*/maps 中 最 前 面 的 两 个 成 员 。 

struct file *vm_ file; 
指向 与 该 区 域 (如 果 存 在 的 话 ) 相关 联 的 file 结构 指针 。 

unsigned long vm _pgoff; 
以 页 为 单位 , 文件 中 该 区 域 的 偏 移 量 。 当 映射 一 个 文件 或 者 设备 时 , 它 是 该 区 域 中 
被 映射 的 第 一 页 在 文件 中 的 位 置 。 

unsigned long vm_flags; 
描述 该 区 域 的 一 套 标志 。 驱 动 程序 最 感 兴趣 的 标志 是 VM_IO 和 VM_RESERVED。 
VM_IO 将 VMA 设 置 成 一 个 内 存 映射 LO 区 域 . VM_IO 会 阻止 系统 将 该 区 域 包含 在 
进程 的 核心 转 储 中 。VM_RESERVED 告诉 内 存 管 理 系 统 不 要 将 该 VMA 交换 出 去 ; 
大 多 数 设备 映射 中 都 设置 该 标志 。 

struct vm _operations_struct *vm ops; 
内 核能 调用 的 一 套 函 数 , 用 来 对 该 内 存 区 进行 操作 。 它 的 存在 表示 内 存 区 域 是 一 个 
内 核 “ 对 象 "， 这 点 和 在 本 书 中 使 用 的 file 结构 很 相似 。 
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void *vm private_ data; 


驱动 程序 用 来 保存 自身 信息 的 成 员 。 


与 vm_area_struct 结 构 类 似 , vm_operations_struct 结 构 也 定义 在 <linux/mm.h> 中 ， 
其 中 包含 了 下 面 列 出 的 函数 。 这些 操 作 只 是 用 来 处 理 进程 的 内 存 需求 , 并 按照 声明 的 顺 
序 将 它们 列 了 出 来 。 在 本 章 后 面 的 部 分 、 将 介绍 如 何 实现 其 中 的 几 个 国 数 。 


void (*open) (struct vm_area_struct *vma); 
内 核 调用 open 函数 , 以 允许 实现 VMA 的 子 系统 初始 化 该 区 域 。 当 对 VMA 产生 一 
个 新 的 引用 时 (比如 fork 进程 时 ) ， 则 调用 这 个 函数 。 唯 一 的 例外 发 生 在 mmap 第 
一 次 创建 VYMA 时 ; 在 这 种 情况 下 ， 需 要 调用 驱动 程序 的 mmap 方法 。 

void (*close) (struct vm area_ struct *vma); 
当 销毁 一 个 区 域 时 ， 内 核 将 调用 close 操作 。 请 注意 由 于 VMA 没有 使 用 相应 的 计 
数 ， 所 以 每 个 使 用 区 域 的 进程 都 只 能 打开 和 关闭 它 一 次 。 


struct page *(*nopage) (struct vm area struct *vm, unsigned long address, int 
*type); 
当 一 个 进程 要 访问 属于 合法 VMA 的 页 , 但 该 页 又 不 在 内 存 中 时 , 则 为 相关 区 域 调 
用 nopage 函数 (如果 定义 了 的 话 )。 在 将 物理 页 从 辅助 存储 器 中 读 入 后 , 该 函数 返 
回 指向 物理 页 的 page 结构 指针 。 如 果 在 该 区 域 没 有 定义 nopage 函数 ， 则 内 核 将 
为 其 分 配 一 个 空 页 。 


int (*populate) (struct vm area_struct *vm, unsigned long address, unsigned 
long len, pgprot_t prot, unsigned long pgoff, int nonblock) ;7 
在 用 户 空 间 访 问 页 前 , 该 函数 允许 内 核 将 这 些 页 预先 装 入 内 存 。 一 般 来 说 , 驱动 程 
序 不 必 实 现 populate 方法 。 


内 存 映 射 处 理 


最 后 一 个 内 存 管理 难题 是 处 理 内存 映 射 结构 , 它 负责 整合 所 有 其 他 的 数据 结构 。 在 系统 
中 的 每 个 进程 (除了 内 核 空间 的 一 些 辅 助 线程 外 ) 都 拥有 一 个 struct mm_struct 结 
构 (在 <linux/sched.h> 中 定义 )， 其 中 包含 了 虚拟 内 存 区 域 链表 、 页 表 以 及 其 他 大 量 内 
存 管 理 信息 , 还 包含 一 个 信号 灯 (mmap_sem) 和 一 个 自 旋 锁 (page_table_lock)。 
在 task 结 构 中 能 找到 该 结构 的 指针 ; 在 少数 情况 下 当 驱 动 程序 需要 访问 它 时 , 常用 的 办 
法 是 使 用 current->mm。 请 注意 ， 多 个 进程 可 以 共享 内 存 管理 结构 ，Linux 就 是 用 这 
种 方法 实现 线程 的 。 
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为 了 能 对 Linux 内 存 管 理 数据 结构 有 一 个 通盘 的 了 解 ， 现 在 首先 看 看 mmap 系统 调用 是 
如 何 实现 的 。 


mmap 设备 操作 


在 现代 Unix 系 统 中 , 内 存 映射 是 最 吸引 人 的 特征 。 对 于 驱动 程序 来 说 , 内 存 映射 可 以 提 
供给 用 户 程序 直接 访问 设备 内 存 的 能 力 。 


使 用 mmap 的 一 个 例子 是 看 一 下 X Window 系统 服务 器 的 部 分 虚拟 内 存 区 域 ; 


cat /proc/731/maps 


000a0000-000c0000 rwxs 000a0000 03:01 282652 /dev/mem 
000f0000-00100000 r-xs 000f0000 03:01 282652 /dev/mem 
00400000-005c0000 r-xp 00000000 03:01 1366927 /usr/X11R6/bin/Xorg 
006bf000-006f7000 rw-p 001bf000 03:01 1366927 /usr/X1l1lR6/bin/Xorg 


2a95828000-2a958a8000 rw-s fcc00000 03:01 282652 /dev/mem 
2a958a8000-2a9d8a8000 rw-s e8000000 03:01 282652 /dev/mem 


义 服务 器 完整 的 VMA 的 清单 很 长 , 但 这 里 对 其 中 的 大 部 分 内 容 都 不 感 兴趣 。 可 以 看 到 ， 
有 四 个 独立 的 /dev/mem 的 映射 ， 它 为 我 们 揭示 了 XX 服务器 如 何 使 用 显示 卡 工作 的 内 幕 。 
第 一 个 映射 开始 位 置 是 a0000， 这 是 在 640KB ISA 结构 中 显示 RAM 的 标准 位 置 。 往 下 
可 以 看 到 更 大 的 一 块 映 射 区 域 e8000000， 其 地 址 位 于 系统 最 大 RAM 地 址 之 上 。 这 是 
对 显示 适配器 中 显存 的 直接 映射 。 


在 /proc/iomem 中 也 可 以 看 到 : 


000a0000-000bffff : Video RAM area 
O000c0000-000ccfff : Video ROM 
000d1000-000d1fff : Adapter ROM 
000f0000-000ffftftf : System ROM 
dA7£00000-f7efffff : PCI Bus #01 
e8000000-efffffff : 0000:01:00.0 
fc700000-fccfffff : PCI Bus #01 
fcc00000-fccotttt : 0000:01:00.0 


映射 一 个 设备 意味 着 将 用 户 空间 的 一 段 内 存 与 设备 内 存 关联 起 来 无论 何 时 当 程 序 在 分 
配 的 地 址 范围 内 读 写 时 ,实际 上 访问 的 就 是 设备 。 在 XX 服务器 例子 中 , 使 用 mmap 就 能 
迅速 而 便捷 地 访问 显卡 内 存 。 对 于 那些 与 此 类 似 、 性 能 要 求 苛刻 的 应 用 程序 , 直接 访问 
能 显著 提高 性 能 。 


正如 读者 怀疑 的 那样 ,不 是 所 有 的 设备 都 能 进行 mmap 抽象 的 。 比 如 像 串 口 和 其 他 面向 
流 的 设备 就 不 能 做 这 样 的 抽象 。 对 mmap 的 另外 一 个 跟 制 是 : 必须 以 PAGE_SIZE 为 单 
位 进行 映射 。 内 核 只 能 在 页 表 一 级 上 对 虚拟 地 址 进行 管理 , 因此 那些 被 映射 的 区 域 必须 
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是 PAGE_SIZE 的 整数 倍 , 并 且 在 物理 内 存 中 的 起 始 地 址 也 要 求 是 PAGE_SIZE 的 整数 
倍 。 如 果 人 区 域 的 大 小 不 是 页 的 整数 倍 , 则 内 核 强 制 指定 比 区 域 稍 大 一 点 的 尺寸 作为 映射 
的 粒度 。 


对 于 驱动 程序 来 说 这 些 限制 并 不 是 什么 大 问题 ,因为 访问 设备 的 程序 都 是 与 设备 相关 的 。 
由 于 程序 必须 知道 设备 的 工作 过 程 ， 因 此 程序 员 不 会 被 诸如 页 边界 之 类 的 需求 所 困扰 。 
在 某 些 非 x86 平 台 上 工作 的 1SA 设备 面临 更 大 的 制约 ,因为 它们 的 ISA 硬 件 视 图 是 不 连 
续 的 。 比 如 一 些 Alpha 计算 机 视 ISA 内 存 为 不 可 直接 映射 的 8 位 、16 位 或 者 32 位 的 离 
散 项 的 集合 。 在 这 种 情况 下 ， 根 本 无 法 使 用 mmap。 无 法 将 ISA 地 址 直接 映射 到 Alpha 
地 址 , 是 由 于 这 两 种 系统 间 ， 存 在 着 不 兼容 的 数据 传输 规则 。 虽 然 早 期 的 Alpha 处 理 器 
只 能 解决 32 位 和 64 位 内 存 访问 问题 ， 但 是 对 于 ISA 来 说 只 能 进行 8 位 和 16 位 的 传输 ， 
没有 办 法 透明 地 将 一 个 协议 映射 到 另外 一 个 协议 上 。 


当 灵 活 使 用 mmap 时 , 它 具有 很 大 的 优势 。 比 如 在 XX 服务 器 例子 中 ， 它 负责 和 显存 间 读 
写 大 车 数 据 ; 与 使 用 /seek/write 相 比 ,将 图 形 显示 映射 到 用 户 空 间 极 大 地 提高 了 和 否 吐 量 。 
另外 一 个 典型 例子 是 控制 PCI 设 备 的 程序 。 大 多 数 PCI 外围 设备 将 它们 的 控制 寄存 器 映 
射 到 内 存 地 址 中 , 高 性 能 的 应 用 程序 更 愿意 直接 访问 寄存 器 , 而 不 是 不 停 的 调用 ioct! 去 
获得 需要 的 信息 。 

mmap 方法 是 file_operations 结 构 的 一 部 分 , 并 且 执 行 mmap 系统 调用 时 将 调用 该 方 
法 。 使 用 mmap， 内 核 在 调用 实际 函数 之 前 ， 就 能 完成 大 量 的 工作 ， 因 此 该 方法 的 原型 
与 系统 调用 有 着 很 大 的 不 同 。 它 也 与 诸如 ioct 和 po 不 同 , 内 核 在 调用 那些 函数 前 不 用 
做 什么 工作 。 


系统 调用 有 着 以 下 声明 (在 mmap(2) 手 册页 中 描述 ): 


mmap (caddr_t addr, size_t len, int prot, int flags, int fd, off t offset) 


但 是 文件 操作 声明 如 下 : 


int {*mmap) {struct file *filp, struct vm area_struct *vma); 


该 函数 中 的 filp 参数 与 第 三 章 中 介绍 的 一 样 , vma 包含 了 用 于 访问 设备 的 虚拟 地 址 的 
信息 。 因 此 大 量 的 工作 由 内 核 完 成 ; 为 了 执行 mmap， 驱 动 程序 只 需要 为 该 地 址 范围 建 
立 合 适 的 页 表 ， 并 将 vma->vm_ops 替换 为 一 系列 的 新 操作 就 可 以 了 。 


有 两 种 建立 页 表 的 方法 : 使 用 remap_pfn_range 函 数 一 次 全 部 建立 ,或 者 通过 nopage 
VMA 方法 每 次 建立 一 个 页 表 。 这 两 种 方法 有 它 各 自 的 优势 和 局 限 性 。 这 里 首先 介绍 一 
次 全 部 建立 的 方法 , 因为 它 最 简单 。 从 这 开始 , 将 会 为 实际 的 实现 方法 逐渐 增加 其 复杂 
性 : 
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使 用 remap_pfn_range 


remap_pfn_range 和 io_remap_page_range 负责 为 一 段 物理 地 址 建立 新 的 页 表 ， 它们 有 
着 如 下 的 原型 : 
int remap pfn range(struct vm_area_struct *vma, 
unsigned long virt_addr, unsigned long pfn, 
unsigned long size, pgprot_t prot); 
int io_remap_page_range (struct vm _area_struct *vma, 


unsigned long virt_addr, unsigned long Phys_addr， 
unsigned long size, pgprot_t prot); 


通常 函数 的 返回 值 是 0， 或 者 是 个 负 的 错误 码 。 现 在 来 看 看 各 参数 的 含义 : 


vma 
虚拟 内 存 区 域 ， 在 一 定 范围 内 的 页 将 被 映射 到 该 区 域内 。 

virt_addr 
重新 映射 时 的 起 始 用 户 虚 拟 地 址 。 该 函数 为 处 于 virt_addr 和 virt_addr+size 之 
间 的 虚拟 地 址 建立 页 表 。 

pfn 
与 物理 内 存 对 应 的 页 帧 号 , 虚拟 内 存 将 要 被 映射 到 该 物理 内 存 上 。 页 帧 号 只 是 将 物 
理 地 址 右 移 PAGE_SHIFT 位。 在 多 数 情况 下 ，VMA 结构 中 的 vm_pgoff 成 员 包 
含 了 用 户 需 要 的 值 。 该 函数 对 处 于 (pfn<<PAGE_SHIFT) 到 (pfn<<PAGE_ 
SHIFT) +size 之 间 的 物理 地 址 有 效 。 


size 
以 字 节 为 单位 ， 被 重新 映射 的 区 域 大 小 。 
prot 


新 VMA 要 求 的 “保护 (protection )” 属 性 。 驱 动 程序 能 够 (也 应 该 ) 使 用 
vma->vm_page_prot 中 的 值 。 


remap_pfn_range 函数 的 参数 非常 简单 ， 当 调用 mmap 函数 的 时 候 ， 它 们 中 大 部 分 的 值 
在 VMA 中 提供 。 也 许 读者 会 奇怪 ， 为 什么 会 有 两 个 函数 呢 ? 第 一 个 函数 
(remap_pfn_range) 是 在 pfn 指 向 实际 系统 RAM 的 时 候 使 用 , 而 io_remap_page_range 
是 在 phys_addr 指 向 WO 内 存 的 时 候 使 用 。 在 实际 应 用 中 , 除了 SPARC 外 ,对 每 个 体 
系 架构 这 两 个 函数 是 等 价 的 , 而 在 大 多 数 情 况 下 会 使 用 remap_pfn_range 函数 。 对 于 有 
可 移植 性 要 求 的 驱动 程序 ， 要 使 用 与 特定 情形 相符 的 remap_pfn_range 变种 。 


另外 复杂 性 也 表现 在 缓存 上 : 对 设备 内 存 的 引用 通常 不 能 被 处 理 器 所 缓存 .系统 的 BIOS 
会 正确 设置 缓存 , 但 是 也 可 以 通过 protection 成 员 禁 止 缓存 特定 的 VMA。 不 幸 的 是 , 在 
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这 个 层面 上 的 禁止 缓存 是 与 处 理 器 高 度 相关 的 ,好 奇 的 读者 可 以 参考 driversichar/mem.c 
中 的 pgprort_noncached 图 数 以 了 解 其 中 细节 。 本 书 不 对 这 个 主题 进行 讨论 。 


一 个 简单 的 实现 
如 果 驱 动 程序 要 将 设备 内 存 线性 地 映射 到 用 户 地 址 空间 中 ,程序 员 基 本 上 就 只 需要 调用 
remdp_pfn_range 国 数 。 下 面 的 代码 来 白 drivers/chnar/mem.c 并 且 揭 示 了 在 -个 被 称 为 
simple ( Simple Implementation Mapping Pages with Little Enthusiasm ) 的 典型 模块 中 ， 
该 任务 是 如 何 被 完成 的 : 

static int simple_remap mmap{lstruct file *filp, struct vm area_struct *vma) 

{ 

if (remap_pfn range(vma, vma->vm_start, vm->vm_ pgoff, 
vma->vm_end - vma->vm_start, 


vma->vm_page_prot))} 
return ~EAGAIN; 


vma->vm_ops = &simple_ remap_vm ops; 
simple_vma_open (vma); 
return 0; 


} 
可 见 ， 重 新 映射 内 存 就 是 调用 remap_pfn_range 函数 创建 所 需 的 页 表 。 


为 VMA 添加 操作 


如 上 所 述 ，vm_area_struct 结构 包含 了 一 系列 针对 VMA 的 操作 。 现 在 来 看 看 如 何 
简单 实现 这 些 函 数 。 本 节 提 供 了 针对 VMA 的 open 和 close 操作 。 当 进程 打开 或 者 关闭 
VMA 时 , 会 调用 这 些 操作 ; 特别 是 当 fork 进 程 或 者 创建 一 个 新 的 对 VMA 引 用 时 , 随时 
都 会 调用 open 函数 。 对 VMA 函数 open 和 close 的 调用 由 内 核 处 理 ， 因 此 它们 没有 必要 
重复 内 核 中 的 工作 。 它 们 存在 的 意义 在 于 为 驱动 程序 处 理 其 他 所 需要 的 事情 。 


除 此 之 外 , 一 个 诸如 simzple 这 样 的 简单 驱动 程序 不 需 再 做 什么 特别 的 事情 了 。 这 里 创建 
了 open 和 close 函数 ， 它 们 负责 向 系统 日 志 中 输入 信息 ,告诉 系统 它们 被 调用 了 。 此 外 
没有 其 他 特殊 用 途 了 ， 不 过 它 能 告诉 读者 : 如 何 提供 这 些 函 数 以 及 何 时 调用 它们 。 


因此 ， 代 码 中 用 调用 printk 的 新 操作 ， 和 覆盖 了 默认 的 vma->vm_ops: 


void simple_vma_openlstruct vm area_struct *vma) 
{ 
printk {KERN_NOTICE "Simple VMA open, virt %lx, phys %1lx\n', 
vma->vm_start, vma->vm pgoff << PAGE_SHIFT) ; 
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void simple_vma_close{struct vm_area_struct *vma) 
{ 

printk (KERN_NOTICE "Simple VMA close.\n"); 
} 


static struct vm _operations_struct simple._remap_vm ops = { 
.open = simple_vma_open, 
.Close = simple_vma close, 
Fs 
为 了 使 这 些 操作 对 特定 的 映射 有 效 ， 需 要 在 相关 VMA 的 vm_ops 成 员 中 保存 指向 
simple_remap_vm_ops 的 指针 。 这 通常 在 mmap 方法 中 完成 。 如 果 回 过 头 去 看 
simple_remap_mmap 示例 ， 能 看 到 如 下 代码 : 
vma->vm_ops = &simple_remap_vm ops; 
simple_vma_open{(vma); 
请 注意 对 simple_vma_open 函数 的 显 式 调用 。 由 于 在 原来 的 mmap 中 没有 调用 open 图 
数 ， 因 此 必须 显 式 调用 它 才 能 使 其 正常 运行 。 


使 用 nopage 映射 内 存 

虽然 remap_page_range 在 许多 情况 下 工作 良好 ， 但 并 不 能 适应 大 多 数 的 情况 。 有 时 四 
动 程序 对 mmap 的 实现 必须 具有 更 好 的 灵活 性 。 在 这 种 情形 下 , 提倡 使 用 VMA 的 nopage 
方法 实现 内 存 映 射 。 


当 应 用 程序 要 改变 一 个 映射 区 域 所 绑 定 的 地 址 时 ,会 使 用 mremap 系统 调用 ， 此 时 是 使 
用 nopage 映射 的 最 好 的 时 机 。 当 它 发 生 时 ， 内 核 并 不 直接 告诉 驱动 程序 什么 时 候 
mremap 改变 了 映射 VYMA。 如 果 VMA 的 尺寸 变 小 了 ， 内 核 将 会 刷新 不 必要 的 页 ， 而 不 
通知 驱动 程序 。 相 反 , 如 果 VMA 尺 寸 变 大 了 ， 当 调用 nopage 时 为 新 页 进行 设置 时 ， 驱 
动 程序 最 终 会 发 现 这 个 情况 , 因此 没有 必要 做 额外 的 通知 工作 。 如 果 要 支持 mmremap 系 
统 调用 ， 就 必须 实现 nopage 函数 。 这 里 提供 了 设备 中 nopage 的 一 个 简单 实现 。 


nopage 图 数 具 有 以 下 原型 : 
struct page *(*nopage) {struct vm area_struct *vma, 
unsigned long address, int *type); 
当 用 户 要 访问 VMA 中 的 页 ， 而 该 页 又 不 在 内 存 中 时 ， 将 调用 相关 的 nopage 函数 。 
address 参 数 包含 了 引起 错误 的 虚拟 地 址 , 它 已 经 被 向 下 贺 整 到 页 的 开始 位 置 。nopage 
函数 必须 定位 并 返回 指向 用 户 所 需要 页 的 page 结构 指针 。 该 函数 还 调用 get_page 宏 ， 
用 来 增加 返回 的 内 存 页 的 使 用 计数 : 


get_page(struct page *pageptr); 
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该 步骤 对 于 保证 映射 页 引用 计数 的 正确 性 是 非常 必要 的 ,内 核 为 每 个 内 存 页 都 维护 了 该 
计数 ; 当 计数 值 为 0 时 ， 内 核 将 把 该 页 放 到 空闲 列表 中 。 当 VMA 解除 映射 时 ， 内 核 为 
区 域内 的 每 个 内 存 页 减 小 使 用 计数 。 如 果 驱 动 程序 向 区 域 添加 内 存 页 时 不 增加 使 用 计数 ， 
则 使 用 的 计数 值 永远 为 0，、 这 将 破坏 系统 的 完整 性 。 


Nopage 方 法 还 能 在 type 参数 所 指定 的 位 置 中 保存 错误 的 类 型 一 一 但 是 只 有 在 type 参 
数 不 为 NULL 的 时 候 才 行 。 在 设备 驱动 程序 中 ，type 的 正确 值 应 该 总 是 VM_FAULT_ 


MINOR 。 


如 果 使 用 了 nopage， 在 调用 mmap 的 时 候 ， 通 常 只 需 做 一 点 点 工作 。 示 例 代 码 如 下 : 


static int simple_nopage_mmap {Struct file *filp, struct vm_area_struct *vma) 


{ 
unsigned long offset = vma->vm_pgoff << PAGE_SHIFT; 


if (offset >= _ _palhigh memory) || {filp->f_flags & O_SYNC)) 
vma->vm_flags |= VM_IO; 
vma->vm_flags |= VM_RESERVED; 


vma->vm _ ops = &simple_nopage_vm_ops; 
simple_vma_open (vma}; 
return 0; 

} 


mmap 函数 的 主要 工作 是 将 默认 的 vm_ops 指针 替换 为 自己 的 操作 。 然后 nopage 函数 小 
心地 每 次 “重新 映射 ”一 页 ， 并且 返回 它 的 page 结构 指针 。 因 为 在 这 里 实现 了 一 个 物 
理 内 存 的 窗口 ,重新 映射 的 步 又 非常 简单 : 只 是 为 需要 的 地 址 定位 并 返回 了 page 结构 
的 指针 。nopage 函数 的 例子 程序 如 下 : 


struct page *simple_vma_nopagel(struct vm_area_struct *vma, 
unsigned long address, int *type) 
{ 
struct page *pageptr; 
unsigned long offset = vma->vm pgoff << PAGE_SHIFT; 
unsigned long physaddr = address - yma->vm_start + offset; 
unsigned long pageframe = physaddr >> PAGE_SHIFT; 


if {!'pfn_valid(pageframe)) 

return NOPAGE_SIGBUS; 
pageptr = pfn_to_page (pageframe); 
get_page (pageptr)}; 
if (type) 

*type = VM FAULT_MINOR; 
return pageptr; 

} 


再 一 次 强调 ,这 里 只 是 简单 映射 了 主 内 存 ,nopage 函 数 需 要 为 失效 地 址 查找 正确 的 page 
结构 、 并 且 增 加 它 的 引用 计数 。 因 此 所 需要 的 步骤 顺序 是 : 首先 计算 物理 地 址 ， 然 后 通 
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过 右 移 PAGE_SHIFT 位 ， 将 它 转 换 成 页 帧 号 。 由 于 用 户 空间 能 为 用 户 提供 它 所 拥有 的 
任何 地 址 , 因此 必须 保证 所 用 的 页 帧 号 合法 ; pj_valid 国 数 可 以 做 这 件 事 。 如 果 地 址 超 
出 了 范围 ， 将 返回 NOPAGE_SIGBUS ， 这 会 导致 向 调用 进程 发 送 一 个 总 线 售 号。 否则 
pfn_to_page 函数 获得 所 需要 的 page 结构 指针 , 这 时 , 我 们 可 以 增加 它 的 引用 计数 (使 
用 get_page 函数 ) 并 将 其 返回 。 


通常 aopage 方 法 返回 一 个 指向 page 结 构 的 指针 。 如 果 出 于 某 些 原因 , 不 能 返回 一 个 下 
常 的 页 (比如 请 求 的 地 址 超过 了 设备 的 内 存 区 域 ), 将 返回 NOPAGE_SIGBUS 表 示 错 误 ; 
这 就 是 上 面 代码 所 做 的 事 。nopage 还 能 返回 NOPAGE_00M， 表示 由 于 资源 紧张 而 造成 


请 注意 ， 这 个 实现 对 1SA 内 存 区 域 工作 正常 ,但 是 不 能 在 PCI 总 线 上 工作 。PCI 内 存 被 
映射 到 系统 内 存 最 高 端 之 上 , 因此 在 系统 内 存 映射 中 没有 这 些 地 址 的 入 口 。 因 为 无 法 返 
回 一 个 指向 page 结构 的 指针 , 所 以 nopage 不 能 用 于 此 种 情形 ; 在 这 种 情况 下 ,必须 使 
用 remap_page_range。 


如 果 nopage 函数 是 NULL, 则 负责 处 理 页 错误 的 内 核 代码 将 把 零 内 存 页 映射 到 失效 虚拟 
地 址 上 。 零 内 存 页 是 一 个 写 拷贝 内 存 页 , 读 它 时 会 返回 0, 它 被 用 于 映射 BSS 段 。 任 何 
一 个 引用 零 内 存 页 的 进程 都 会 看 到 : 一 个 充满 了 零 的 内 存 页 。 如 果 进 程 对 内 存 页 进行 写 
操作 ， 将 最 终 修改 私有 拷贝 。 因 此 ， 如 果 一 个 进程 调用 mremap 扩充 一 个 映射 区 域 ， 而 
驱动 程序 没有 实现 nopage, 则 进程 将 最 终 得 到 一 块 全 是 零 的 内 存 , 而 不 会 产生 段 故障 错 
误 。 


重 映射 特定 的 1/O 区 域 


迄今 为 止 , 所 有 例子 都 是 对 /dev/mem 的 再 次 实现 ; 它们 把 物理 内 存 重新 映射 到 用 户 空间 
中 。 一 个 典型 的 驱动 程序 只 映射 与 其 外 国 设 备 相关 的 一 小 段 地 址 ,而 不 是 映射 全 部 地 址 。 
为 了 向 用 户 空 间 只 映射 部 分 内 存 的 需要 , 驱动 程序 只 需要 使 用 偏 移 量 即 可 。 下 面 的 代码 
揭示 了 驱动 程序 如 何 对 起 始 于 物理 地 址 simple_region_start (页 对 齐 )、 大 小 为 
simple_region_size 字 节 的 区 域 进行 映射 的 工作 过 程 : 

unsigned long off = vma->vm pgoff << PAGE_SHIFT， 

unsigned long physical = simple_region_start + off; 


unsigned long vsize = vma->vm_end - vma->vm_start; 
unsigned long psize = simple_region_ size - off; 


if (vsize > psize) 
return -EINVAL; /* 跨度 过 大 */ 
remap_pfn_range{vma, vma._>vm start, physical, vsize, vma->vm page_prot); 
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当 应 用 程序 要 映射 比 目 标 设备 可 用 IO 区 域 大 的 内 存 时 ,除了 计算 偏 移 量 ， 代 码 还 检查 
参数 的 合法 性 并 报告 错误 。 在 代码 中 ,psize 是 偏 移 了 指定 距离 后 , 剩 下 的 物理 WO 大 
小 ,vsize 是 虚拟 内 存 需要 的 大 小 ; 该 函数 拒绝 映射 超出 许可 内 存 范 围 的 地 址 。 


请 注意 ;用 户 进程 总 是 使 用 mremap 对 映射 进行 扩展 、 有 可 能 超过 了 物理 内 存 区 域 的 尾 
部 。 如果 驱动 程序 没有 定义 一 个 nopage 销 数 , 它 将 不 会 获得 这 个 扩展 的 通知 , 并 且 多 出 
的 区 域 将 被 映射 到 零 内 存 页 上 。 作 为 驱动 程序 作者 ,应 该 尽量 避免 这 种 情况 的 发 生 ; 将 
零 内 存 页 映射 到 区 域 的 末端 并 非 一 件 坏事 ， 但 是 程序 员 也 不 愿意 看 到 这 种 现象 。 


为 防止 扩展 映射 最 简单 的 办 法 是 实现 一 个 简单 的 nopage 方 法 , 它 会 产生 一 个 总 线 信号 传 
递 给 故障 进程 。 该 函数 有 着 类 似 于 下 面 的 形式 : 
struct page *simple_nopage{struct vm area struct *vma, 


unsigned long address, int *type); 
{ return NOPAGE_SIGBUS; /* 发 送 SIGBUS */} 


如 上 所 示 , 只 有 当 进 程 抛弃 那些 存在 于 已 知 VMA 中 , 但 没有 当前 合法 页 表 入 口 的 地 址 
时 , 才 会 调用 nopage 函数 。 如 果 使 用 remap_pfn_range 映 射 全 部 的 设备 区 域 , 将 会 为 超 
过 该 区 域 的 部 分 调用 上 面 的 nopage 函数 。 因 此 它 能 安全 返回 NOPAGE_SIGBUS, 通知 
错误 的 发 生 。 当 然 一 个 更 为 彻底 的 nopage 函 数 的 实现 会 检查 失效 的 地 址 是 否 在 设备 区 域 
内 ,如果 在 设备 区 域内 ， 它 会 执行 重新 映射 。 再 强调 一 次 ，nopage 函数 不 能 对 PCI 内存 
进行 操作 ， 因 此 对 PCI 映 射 的 扩展 是 不 可 能 实现 的 。 


重新 映射 RAM 


对 remap_pfn_range 函 数 的 一 个 限制 是 : 它 只 能 访问 保留 页 和 超出 物理 内 存 的 物理 地 址 。 
在 Linux 中 ,在 内 存 映 射 时 ， 物 理 地 址 页 被 标记 为 “保留 的 ”(reserved)， 表 示 内 存 管 
理 对 其 不 起 作用 。 比如 在 PC 中 , 在 640KB 和 1MB 之 间 的 内 存 被 标记 为 保留 的 , 因为 这 
个 范围 位 于 内 核 自身 代码 的 内 部 。 保留 页 在 内 存 中 被 锁 住 , 并 且 是 唯一 可 安全 映射 到 用 
户 空 间 的 内 存 页 ; 这 个 限制 是 保证 系统 稳定 性 的 基本 需求 。 


因此 remap_pfn_range 不 允许 重新 映射 常规 地 址 , 这 包括 调用 ger_free_page 函数 所 获得 
的 地 址 。 相 反 它 能 映射 零 内 存 页 。 进 程 能 访问 私有 的 、 零 填充 的 内 存 页 ,而 不 是 访问 所 
期 望 的 重新 映射 的 RAM, 除了 这 点 外 , 一 切 工作 正常 。 虽 然 如 此 , 该 函数 还 是 做 了 大 多 
数 硬 件 设备 驱动 程序 需要 做 的 事 ， 因 为 它 能 重新 映射 高 端 PCI 缓 冲 区 和 ISA 内 存 。 


能 够 通过 运行 mapper 看 到 对 remap_page_range 的 限制 ， 它 是 O'Reilly FTP 服务 器 上 
misc-progs 目 录 中 的 一 个 例子 程序 。mapper 是 一 个 用 来 快速 检测 mmap 系统 调用 的 易 用 
工具 ; 它 根据 命令 行 选项 映射 一 个 文件 中 的 只 读 部 分 , 并 把 映射 区 域 的 内 容 列 在 标准 输 
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出 上 上 。 比 如 在 下 面 的 会 话 中 , 显示 了 /dev/mem 没有 了 映射 在 64KB 处 的 物理 页 , 而 是 看 到 
了 一 个 全 是 零 的 内 存 页 ( 运行 该 例子 程序 的 主机 是 台 PC , 但 在 其 他 硬件 平台 上 运行 的 结 
果 应 该 一 样 ): 

morgana ,root# . /mapper /dev/mem 0x10000 0x1000 | od -ax -t X1 


mapped "/dev/mem" from 65536 to 69632 
000000 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 


二 


001000 


remap_pfn_range 函数 无 法 处 理 RAM 表明 : 像 Scwl1 这 样 基于 内 存 的 设备 无 法 简单 地 实 
现 mmap ， 因 为 它 的 设备 内 存 是 通用 的 RAM， 面 不 是 IO 内 存 。 幸 运 的 是 ， 对 任何 需要 
将 RAM 映 射 到 用 户 空间 的 驱动 程序 来 说 ， 有 一 种 简单 的 方法 可 以 达到 目的 ， 这 就 是 前 
面 介绍 过 的 nopage 函数 。 


使 用 nopage 方法 重 映 射 RAM 
将 实际 的 RAM 映射 到 用 户 空间 的 方法 是 : 使 用 vm_ops->nopage 一 次 处 理 一 个 页 错 
误 。 在 第 八 章 的 sculip 模块 中 ， 有 一 个 实现 该 功能 的 例子 。 


scullp 是 一 个 面向 内 存 页 的 字符 设备 。 由 于 是 面向 内 存 页 的 , 因此 能 对 内 存 执行 mmap。 
在 执行 内 存 映 射 的 代码 中 ,使 用 了 在 “Linux 中 的 内 存 管理 ”一 节 中 介绍 的 一 些 概念 。 


在 学 习 代码 前 ， 先 来 看 看 影响 sculip 中 mmap 实现 的 一 些 设 计 选择 : 


。 ”只 要 映射 了 设备 , sculip 就 不 会 释放 设备 内 存 。 与 其 说 是 需求 , 还 不 如 说 是 一 种 机 
制 , 这 使 得 scul! 和 其 他 类 似 设备 有 着 很 大 的 不 同 , 因为 打开 它们 进行 写 操作 时 , 会 
把 它们 的 长 度 截 短 为 0。 禁 止 释放 一 个 被 映射 的 scullp 设备 ,使 得 一 个 进程 改写 被 
另外 一 个 进程 映射 的 区 域 成 为 可 能 , 因此 可 以 看 到 进程 和 设备 内 存 是 如 何 互动 的 。 
为 了 避免 释放 一 个 被 映射 的 设备 , 驱动 程序 必须 保存 活动 映射 的 计数 ; 在 device 结 
构 中 的 vmas 成 员 的 作用 就 是 完成 这 一 功能 。 


。 ”只 有 当 scullp 的 order 参数 (在 加 载 模块 时 设置 ) 为 0 的 时 候 , 才 执 行内 存 映 射 。 
该 参数 控制 了 对 __get_free_pages 的 调用 (参看 第 八 章 中 “get_free_page 及 相关 
函数 ”一 节 )。 在 sculip 使 用 的 分 配 函 数 一 一 __get_free_pages 函数 内 部 实现 体现 
了 0 千 次 的 限制 ( 它 强制 每 次 只 分 配 一 个 内 存 页 ， 而 不 是 一 组 )。 为 使 分 配 性 能 最 
大 化 ,Linux 内核 为 每 一 个 分 配 震 次 维护 了 一 个 闲置 页 列表 , 而 且 只 有 灸 中 的 第 一 
个 页 的 页 计数 可 以 由 ger_free_pages 增 加 , 并 由 free_pages 减 少 。 如 果 分 配 秆 次 大 
于 0, 则 对 scullp 设 备 禁 止 使 用 mmap 函数 。 因为 nopage 只 处 理 单 页 而 不 处 理 一 乱 
页 面 。 scullp 不 知道 如 何 为 内 存 页 正确 管理 引用 计数 , 这 是 更 高 分 配 惫 次 的 一 部 分 
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(如 果 需 要 复习 一 下 scullp 和 和 内存 分 配 舌 次 的 值 ， 可 以 返回 到 第 八 章 的 “使 用 一 整 
页 的 scull: sculip” 一 节 )。 


0 徊 次 的 限制 尽 可 能 地 简化 了 代码 。 通 过 处 理 页 的 使 用 计数 ,也 有 可 能 为 多 页 分 配 正 确 
地 实现 mmap， 但 是 这 会 增加 例子 的 复杂 性 ， 却 不 能 引入 任何 有 趣 的 信息 。 


如 果 代 码 想 要 按照 上 面 描述 的 规则 来 映射 RAM， 就 需要 实现 open，、close 和 nopage 等 
VMA 方法 ， 它 也 需要 访问 内 存 映像 来 调整 页 的 使 用 计数 。 


scullp_mmap 的 实现 很 是 简短 ， 因 为 它 依赖 nopage 函数 来 完成 所 有 的 工作 : 


int scullp mmapl(struct file *filp, struct vm area_struct *vma) 
{ 
struct inode *inode = filp->f_dentry->d_inode:; 


/* 如 果 宫 次 不 是 0， 则 禁止 映射 */ 
if {scullp_devices[iminor (inode)] .order) 
return -ENODEV; 


/* 这 里 不 做 任何 事情 ,“nopage” 将 填补 这 个 空白 */ 
vma->vm_ops = &scullp_vm_ops; 
vma->vm_flags |= VM_RESERVED; 
vma->vm_private_data = filp->private_data; 
scullp_vma_open (vma); 

return 0; 


} 
if 语句 的 目的 是 为 了 避免 映射 分 配 署 次 不 为 0 的 设备 。sculip 的 操作 被 存储 在 vm_ops 


成 员 中 , 而 且 一 个 指向 device 结构 的 指针 被 存储 在 vm_private_data 成 员 中 。 最 后 
vm_ops->open 被 调用 ， 以 更 新 模块 的 使 用 计数 和 设备 的 活动 映射 计数 。 


open 和 close 国 数 只 是 简单 地 跟踪 这 些 计 数 ， 其 定义 如 下 : 


void scullp_vma_open{struct vm area_struct *vma) 


{ 
struct scullp.dev *dev = vma->vm,_private data,; 


dev->vmas++}; 
} 


void scullp_vma_close (Struct vm_area_ struct *vma) 


{ 
struct scullp dev *dev = vma->vm_ private_data; 


dev->vmas--; 


} 


大 部 分 工作 由 nopage 函数 完成 。 在 sculip 的 实现 中 , nopage 的 address 参数 用 来 计算 
设备 里 的 偏 移 量 ， 然 后 使 用 该 偏 移 量 在 scullp 的 内 存 树 中 查找 正确 的 页 : 
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struct page *scullp_vma_nopage(struct vm_area_struct *vma, 
unsigned long address, int *type) 
{ 
unsigned long offset; 
struct scullp_dev *ptr, *dev = vma->vm private_data; 
struct page *page = NOPAGE_SIGBUS; 
void *pageptr = NULL; /* 默认 值 是 “没有 ” */ 


down (&dev->sem); 
offset = (address - vma->vm_ start) + (vma->vm pgoff << PAGE_ SHIFT); 
if (offset >= dev->size) goto out; /* 超出 范围 */ 


Fy 夺 
* 现在 从 链表 中 获得 了 scullp 设备 以 及 内 存 页 。 
* 如 果 设 备 有 空白 区 ， 当 进程 访问 这 些 空白 区 时 ,进程 会 收 到 SIGBUS。 
se 


offset >>= PAGE_SHIFT; /* offset 是 页 号 */ 
for (ptr = dev; ptr && offset >= dev->qset;) { 
ptr = ptr->next; 
offset ~= dev->qset; 
} 
if (ptr && ptr->data) pageptr = ptr->datalotfset]; 
if {!pageptr) goto out; /* 空白 区 或 者 是 文件 末尾 */ 
page = virt_to_page (pageptr); 


/* 获得 该 值 ， 现 在 可 以 增加 计数 了 */ 
get_page (page); 
if (type) 
*type = VM FAULT_MINOR; 
OUL : 
up (&dqev->sem) 
return page; 


} 


scullp 使 用 了 由 gert_free_pages 函数 获得 的 内 存 。 该 内 存 使 用 逻辑 地 址 寻 址 ， 因 此 
sculip_nopage 要 做 的 全 部 工作 就 是 调用 virt_to_page 来 获得 page 结构 的 指针 。 


scullp 设备 现在 如 预期 的 那样 工作 了 ， 下 面 是 mapper 工具 的 输出 。 这 里 发 送 一 个 /dev 
(很 长 ) 目录 清单 给 sculip 设备 ， 然 后 使 用 mapper 工具 查看 mmap 生成 的 清单 片段 : 
morganag ls -1 /dev > /dev/scullp 


morganas ./mapper /dev/scullp 0 140 
mapped "/dev/scullp" from 0 (0x00000000) to 140 (0x0000008c) 


total 232 
Crw------- 1 root root 10, 10 Sep 15 07:40 adbmouse 
CrWw-r--r-- TO root 10, 175 Sep 15 07:40 agpgart 


morgana% ./mapper /dev/scullp 8192 200 
mapped "/dev/scullp" from 8192 (0x00002000) to 8392 (0x000020c8) 


do0hl1494 
brw-rw---- 1 root floppy 2, 92 Sep 15 07:40 fdoh1660 
brw-rw---- 1 root floppy 2, 20 Sep 15 07:40 fd0h360 


brw-rw---- 1 root floppy 2, 12 Sep 15 07:40 fd0H360 
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重新 映射 内 核 虚 拟 地 址 


虽然 很 少 需要 重新 映射 内 核 虚拟 地 址 . 但 是 知道 驱动 程序 是 如 何 使 用 mmap 将 内 核 塌 拟 
地 址 映射 到 用 户 空间 的 ， 也 是 一 件 有 趣 的 事 。 一 个 真正 的 内 核 虚 拟 地 址 ， 就 是 诸如 
vmalloc 这样 的 函数 返回 的 地 址 一 一 也 就 是 说 , 是 一 个 映射 到 内 核 页 表 的 虚拟 地 址 。 本 
节 中 的 代码 是 从 scullv 中 抽取 出 来 的 ，scullyv 是 一 个 与 scullp 类 似 的 模块 ， 但 它 是 通过 
vmalloc 分 配 存储 空间 的 。 


除了 不 需要 检查 控制 内 存 分 配 的 order 参 数 之 外 ,scully 中 的 大 多 数 实 现 与 前 面 讨论 的 
sculip 中 的 一 样 。 这 是 因为 vmalioc 每 次 只 分 配 一 个 内 存 页 , 而 单 页 分 配 比 多 页 分 配 成 功 
的 可 能 性 更 高 一 些 ， 因 此 分 配 的 算 次 问题 在 vmallioc 所 分 配 的 空间 中 不 存在 。 


除了 上 述 部 分 , 只 有 scullp 和 scullv 所 实现 的 nopage 国 数 是 不 一 样 的。 请 记 住 sculip 一 
日 发现 了 感 兴趣 的 页 ， 将 调用 virt_to_page 获得 相应 的 page 结构 指针 。 但 是 该 函数 不 
能 在 内 核 虚 拟 空 间 中 使 用 , 因此 必须 使 用 vmalioc_to_page 赫 换 它 。 sculiv 版 本 的 nopage 
函数 的 最 后 部 分 如 下 : 

A/ 

* 在 sculilv 查找 之 后 ,“page” 现 在 是 当前 进程 所 需要 的 页 地 址 。 

* 由 于 它 是 一 个 vmalloc 返回 的 地 址 ， 将 其 转化 为 一 个 Page 结构 。 

*/ 

page = vmalloc_to. page (pageptr),; 


/* 获得 该 值 ， 现 在 增加 它 的 计数 */ 
get_page (page); 
if (type) 
*type = VM_FAULT_MINOR; 
OUL : 
Up{&dev->sem); 
return page; 


出 于 对 上 述 讨论 内 容 的 考虑 ， 读 者 可 能 想 要 将 ioremap 返回 的 地 址 映射 到 用 户 空间 上 。 


但 这 么 做 是 错误 的 , 这 是 因为 ioremap 返回 的 地 址 比较 特殊 , 不 能 把 它 当 作 普 通 的 内 核 
虚拟 地 址 ， 应 该 使 用 remap_pfn_range 函数 将 1/O 内 存 重 新 映射 到 用 户 空间 上 。 


执行 直接 VO 访问 


内 核 缓冲 了 大 多 数 1/O 操作 。 对 内 核 空间 缓冲 区 的 使 用 ,在 一 定 程度 上 分 隔 了 用 户 空间 
和 实际 设备 ; 这 种 分 隔 在 许多 情况 下 使 得 程序 更 容易 实现 ,并 且 提高 了 性 能 。 然 而 有 些 
时 候 ， 直 接 对 用 户 空间 缓冲 区 执行 IO 操作 效果 也 是 很 好 的 。 如 果 需 要 传输 的 数据 量 非 
常 大 , 直接 进行 数据 传输 ， 而 不 需要 额外 地 从 内 核 空间 拷贝 数据 操作 的 参与 ,这 将 会 大 
大 提高 速度 。 
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在 2.6 内 核 中 一 个 使 用 直接 IO 操作 的 例子 是 SCSI 磁 带 机 驱动 程序 。 数 据 磁带 会 把 大 量 
数据 传递 给 系统 , 而 磁带 的 传输 通常 是 面向 记录 的 , 因此 在 内 核 中 缓冲 数据 的 收益 非常 
小 。 因此 当 条 件 成 熟 (比如 用 户 空间 缓冲 区 很 大 ) 的 时 候 ，SCSI 磁 带 机 驱动 程序 不 通过 
数据 拷贝 ， 直 接 执行 它 的 IO 操作 。 


然而 必须 要 清醒 的 认识 到 ， 直 接 IO 并 不 能 像 人 们 期 望 的 那样 ， 总 是 能 提供 性 能 上 的 飞 
跃 。 设 置 直接 IO (这 包括 减少 和 约束 相关 的 用 户 页 ) 的 开销 非常 巨大 ， 而 又 没有 使 用 
缓存 IO 的 优势 。 比 如, 使 用 直接 IO 需要 write 系统 调用 同步 执行 ; 否则 应 用 程序 将 会 
不 知道 什么 时 候 能 再 次 使 用 它 的 IO 缓冲 区 .在 每 个 写 操作 完成 之 前 不 能 停止 应 用 程序 ， 
这 样 会 导致 关闭 程序 缓慢 ， 这 就 是 为 什么 使 用 直接 WO 的 应 用 程序 也 使 用 异步 IO 的 原 
因 。 


无 论 如 何 ， 在 字符 设备 中 执行 直接 I/O 是 不 可 行 的 ， 也 是 有 害 的 。 只 有 确定 设置 缓冲 
IO 的 开销 特别 巨大 , 才 使 用 直接 IO。 请 注意 块 设备 和 网 络 设备 根本 不 用 担心 实现 直接 
IO 的 问题 ; 在 这 两 种 情况 中 , 内核 中 高 层 代码 设置 和 使 用 了 直接 1O0, 而 驱动 程序 级 的 
代码 其 至 不 需要 知道 已 经 执行 了 直接 I/O。 


在 2.6 内 核 中 ,实现 直接 1/0 的 关键 是 名 为 get_user_pages 的 函数 , 它 定义 在 <linux/mm.h> 
中 ， 并 有 以 下 原型 : 
int get user_ pages(struct task_struct *tsk, 
struct mm_struct *mm, 
unsigned long start, 
int len., 
int write, 
int force, 
struct page **pages, 
struct vm area struct **vmas); 


该 函数 有 许多 参数 : 
tsk 


指向 执行 1O 的 任务 指针 ; 它 的 主要 目的 是 告诉 内 核 ， 当 设置 缓冲 区 时 ， 谁 负责 解 
决 页 错误 的 问题 。 该 参数 几乎 总 是 current。 


指向 描述 被 映射 地 址 空间 的 内 存 管理 结构 的 指针 。mm_struct 结 构 用 来 聚合 进程 
虚拟 地 址 空间 中 的 VMA 。 对 驱动 程序 来 说 ， 该 参数 总 是 current->mm。 


start 
len 


start 是 用 户 空间 缓冲 区 的 地 址 (页 对 齐 )，len 是 页 内 的 缓冲 区 长 度 。 
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write 

force 
如 果 write 非 零 , 对 映射 的 页 有 写 权限 ( 意味 着 用 户 空 间 执行 了 读 操作 )。force 
标志 告诉 get_user_pages 函 数 不 要 考虑 对 指定 内 存 页 的 保护 ,直接 提供 所 请 求 的 访 
问 ; 驱动 程序 对 该 参数 总 是 设置 为 0。 

pages 

vmas 
输出 参数 。 如 果 调 用 成 功 , pages 中 包含 了 一 个 描述 用 户 空 间 缓 冲 区 page 结 构 的 
指针 列表 ，vmas 包含 了 相应 VMA 的 指针 。 显 然 这 些 参 数 指向 的 数组 至 少 包含 了 
len 个 指针 。 这 两 个 参数 都 可 以 为 NULL, 但 至 少 page 结构 指针 要 对 绿 冲 区 进行 
实际 的 操作 。 


get_user_pages 国 数 是 一 个 底层 内 存 管理 函数 ,使 用 了 比较 复杂 的 接口 。 它 还 需要 在 调 
用 前 ， 将 mmap 为 获得 地 址 空间 的 读 取 者 / 写 人 者 信号 量 设置 为 读 模式 。 因 此 ， 对 
get_user_pages 的 调用 有 类 似 以 下 的 代码 : 

down_read(&current->mm->mmap. sem); 


result = get_user pages (current, current->mm, ...}); 
up_read(&current—->mm->mmap_sem)}; 


返回 的 值 是 实际 被 映射 的 页 数 ， 它 可 能 会 比 请 求 的 数量 少 (但 是 大 于 0)。 


如 果 调 用 成 功 , 调 用 者 就 会 拥有 一 个 指向 用 户 空 间 缓冲 区 的 页 数组 , 它 将 被 锁 在 内 存 中 。 
为 了 能 直接 操作 缓冲 区 ， 内 核 空间 的 代码 必须 用 kmap 或 者 kmap_atomic 函数 将 每 个 
page 结 构 指针 转换 成 内 核 虚 拟 地 址 。 使 用 直接 IO 的 设备 通常 使 用 DMA 操作 , 因此 驱 
动 程序 要 从 page 结 构 指 针 数 组 中 创建 一 个 分 散 /聚集 链表 。 我 们 将 在 “分 散 /聚集 映射 ” 
一 节 中 对 其 进行 详细 讲述 。 

一 旦 直接 IO 操作 完成 ， 就 必须 释放 用 户 内 存 页 。 在 释放 前 ， 如 果 改 变 了 这 些 页 中 的 内 
容 ， 则 必须 通知 内 核 ， 否 则 内 核 会 认为 这 些 页 是 “干净 ”的 ， 也 就 是 说 ， 内 核 会 认为 它 
们 与 交换 设备 中 的 拷贝 是 匹配 的 ,因此 , 无 需 回 存 就 能 释放 它们 。 因 此 ， 如 果 改 变 了 页 
(响应 用 户 空间 的 读 取 请 求 )， 则 必须 使 用 下 面 的 函数 标记 出 每 个 被 改变 的 页 : 


void SetPageDirty(SEruct page *page);: 


这 个 宏 定 义 在 <linux/page-flags.h> 中 。 执行 该 操作 的 大 多 数 代码 首先 要 检查 页 , 以 确保 
该 页 不 在 内 存 映射 的 保留 区 内 ,因为 这 个 区 的 页 是 不 会 被 交换 出 去 的 ,因此 有 如 下 代码 : 


if {! PageReserved (page)})} 
SetPageDirty (page); 
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由 于 用 户 空间 内 存 通常 不 会 被 标记 为 保留 , 因此 这 个 检查 并 不 是 严格 要 求 的 。 但 是 , 在 
对 内 存 管 理子 系统 有 更 深入 的 了 解 前 ， 最 好 章 慎 和 细致 些 。 


不 管 页 是 否 被 改变 ,它们 都 必须 从 页 缓存 中 释放 , 否则 它们 会 永远 存在 在 那里 。 所 需要 
使 用 的 函数 是 : 


void page_cache_releasel(struct page *page); 


当然 ， 如 果 需 要 的 话 ， 在 页 被 标记 为 改变 (dirty) 后 ， 应 该 执行 该 调用 。 


异步 MO 


添加 到 2.6 内 核 中 的 一 个 新 特性 是 异步 IO 。 异 步 IO 允许 用 户 空间 初始 化 操作 , 但 不 必 
等 待 它们 完成 , 这 样 , 当 LO 在 执行 时 , 应 用 程序 可 以 进行 其 他 的 操作 。 一 个 复杂 的 、 高 
性 能 的 应 用 程序 也 能 使 用 异步 1O， 让 多 个 操作 同时 进行 。 


异步 I/O 的 实现 是 可 选 的 ， 只 有 少数 驱动 程序 作者 需要 考虑 这 个 问题 ,大 多 数 设备 并 不 
能 从 异步 操作 中 获得 好 处 。 在 后 面 的 几 章 中 , 块 设备 和 网 络 设备 驱动 程序 是 完全 异步 操 
作 的 ， 因此 只 有 字符 设备 驱动 程序 需要 清楚 地 表示 需要 异步 110 的 支持 。 如 果 有 恰当 的 
理由 需要 在 同一 时 刻 执 行 多 于 一 个 的 VO 操作， 则 字符 设备 将 会 从 异步 WO 中 受益 。 一 
个 良好 的 例子 是 磁带 机 驱动 程序 ， 如 果 它 的 WO 操作 不 能 以 足够 快 的 速度 执行 ， 则 双 动 
器 会 显著 变 慢 。 一 个 为 了 获得 该 驱动 器 最 优 性 能 的 应 用 程序 应 该 使 用 异步 1O， 同 时 准 
备 执行 多 个 操作 。 


针对 于 少数 需要 实现 异步 IO 的 驱动 程序 作者 我们 这 里 对 异步 IO 的 工作 过 程 做 一 个 
简要 的 介绍 。 在 本 章 中 讲述 异步 IO 的 原因 , 是 由 于 它 的 实现 总 是 包含 直接 IO 操作 (如 
果 在 内 核 中 缓冲 数据 ， 则 可 以 实现 异步 操作 ， 而 不 给 用 户 空间 增加 复杂 程度 )。 


支持 异步 1/0 的 驱动 程序 应 该 包含 <linuxiaio.h>。 有 三 个 用 于 实现 异步 1/0 的 
file_operations 方法 : 
ssize_t (*aio_read) (struct kiocb *iocb, char *buffer, 
Size_t count, loff_t offset); 
ssize_t (*aio write) (struct kiocb *iocb, const char *buffer, 


size t count, loff_t offset); 
int {*aio_fsync) (struct kiocb *iocb, int datasync) ; 


aio_fsync 操作 只 对 文件 系统 有 意义 ,因此 不 作 深 入 讨论 。 另 外 两 个 函数 ，aio_read 和 
aio_write 与 常用 的 read 和 write 函数 非常 类 似 ， 但 是 也 有 一 些 不 同 。 其 中 一 个 不 同 是 : 
传递 的 of fset 参数 是 一 个 值 ; 异步 操作 从 不 改变 文件 的 位 置 , 因此 没有 必要 向 它 传 递 
指针 。 这 两 个 函数 都 使 用 iocb (1/0 控制 块 ，I/O control block) 参数 ， 一 会 将 讨论 它 。 
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aio_read 和 aio_write 函数 的 目的 是 初始 化 读 和 写 操作 , 在 这 两 个 函数 完成 时 , 读 写 操作 
可 能 已 经 完成 , 也 可 能 尚未 完成 。 如 果 操 作 立 刻 完 成 , 则 函数 将 返回 常规 状态 : 传输 的 
字 节 数 或 者 是 负 的 错误 码 。 因 此 如 果 驱 动 程序 作者 自己 的 read 函数 称 为 my_read, 下 面 
的 aio_read 函数 就 是 完全 正确 的 (虽然 是 无 意义 的 ): 
static ssize_t my_aio_read(Struct kiocb *iocb, char *buffer, 
ssize_t count, loff_t offset) 
{ 


return ImY_read{(icocb->ki_filp，buftfter，counct，koffset):; 


} 
请 注意 file 结构 指针 保存 在 kiocb 结构 中 的 ki_filp 成员 里 。 
如 果 支 持 异 步 1O， 则 必须 知道 一 个 事实 : 内 核 有 时 会 创建 “同步 IJOCB 。 也 就 是 说 异 


步 操作 实际 上 必须 同步 执行 。 读者 也 许 会 问 : 为 什么 会 这 样 ? 但 最 好 还 是 适应 内 核 的 要 
求 。 同 步 操作 会 在 1OCB 中 标识 因此， 驱动 程序 应 该 使 用 下 面 的 函数 进行 查询 : 


tnt is_Ssync_kiocb(struct kiocb *iocb); 
如 果 该 函数 返回 非 零 值 ， 则 驱动 程序 必须 执行 同步 操作 。 


最 后 的 关键 点 是 如 何 允 许 异 步 操 作 。 如 果 驱 动 程序 可 以 开始 操作 (或 者 简单 点 , 将 操作 
压 入 队列 , 等 待 未 来 某 个 时 刻 执 行 ), 它 必 须 做 两 件 事 : 记 住 与 操作 相关 的 所 有 信息 , 并 
且 返 回 -EIOCBQUEUED 给 调用 者 。 记 住 操作 的 信息 包括 了 安排 对 用 户 空间 缓冲 区 的 访 
间 ; 一 旦 返回 ,因为 要 运行 在 调用 进程 的 上 下 文中 ， 所 以 将 不 能 再 访问 这 个 缓冲 区 。 通 
常 这 意味 着 建立 直接 的 内 核 映 射 (使 用 get_user_pages) 或 者 DMA 映射 。 
-EIOCBQUEUED 错误 码 表明 操作 还 没有 完成 ， 它 最 终 的 状态 将 在 未 来 某 个 时 刻 公 布 。 


当 未 来 某 个 时 刻 到 来 时 ， 驱 动 程序 必须 通知 内 核 操 作 已 经 完成 。 这 需要 使 用 
aio_complete 国 数 : 


int aio_complete(Struct kiocb *iocb, long res, long res2) 


这 里 , iocb 与 最 初 传递 给 我 们 的 IOCB 相同 ,res 是 操作 的 结果 状态 ,res2 是 返回 给 
用 户 空间 的 第 二 状态 码 , 大 多 数 异步 10 会 将 res2 设 置 为 0, 一旦 调用 了 aio_complete， 
就 不 能 再 访问 IOCB 或 者 用 户 缓冲 区 了 。 


异步 MO 例子 


在 例子 源 代码 中 ， 面 向 内 存 页 的 scullp 驱动 程序 实现 了 异步 MO。 该 实现 非常 简单 ， 但 
对 于 揭示 异步 操作 是 如 何 进行 的 ， 就 已 经 足够 了 。 


aio_read 和 aio_write 国 数 实际 上 没 做 什么 事 : 
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static ssize_t SCU1L1P_aio_read(struct kiocb *iocb, char *buf, size_t count， 
loff t pos) 
{ 
return scullp. defer_op{0, iocb, buf, count, pos); 
} 


static ssize t scullp_aio write{struct kiocb *iocb, const char *buf, 
Size_t count, loff_t pos) 
{ 
return scullp defer_op(1, iocb, {char *) buf, count, pos}); 
} 


这 些 函 数 只 是 简单 地 调用 了 一 个 常用 函数 : 


struct async, work { 

struct kiocb *iocb; 

int restult; 

struct work._struct work; 
}; 


static int scullp_defer_opl(int write, struct kiocb *iocb, char *buf, 
size_t count, loff_t pos) 
{ 
struct async work *stuff; 
int result; 
/* 虽然 可 以 访问 缓冲 区 .但 现在 要 进行 找 贝 操作 */ 
if {write) 
result = scullp._write(iocb->ki. filp, buf, count, &pos); 
else 
result = scullp_read{iocb->ki_filp, buf, count, &pos); 


/* 如 果 这 是 一 个 同步 的 IOCB， 则 现在 返回 状态 值 */ 
if (is_sync_kiocb(iocb)) 
return result; 


/* 否则 把 完成 操作 向 后 推迟 几 意 种 */ 
stuff = kmalloc {sizeof (*stuff), GFP_KERNEL); 
if {stuff = = NULL) 
return result; 

/* 没有 可 用 内 存 了 ， 使 之 完成 */ 
stuff->iocb = iocb; 
stuff->result = result; 
INIT_WORK(&stuff->work, scullp. do_deferred_op, stuff); 
schedule delayed work{&stuff->work, HZ2/100); 
return -EIOCBQUEUED; 

} 


一 个 更 完整 的 实现 应 该 使 用 get_user_pages 函数 ， 以 便 将 用 户 缓冲 区 映射 到 内 核 空 间 ， 
为 了 简单 起 见 , 这 里 只 是 从 起 始 位 置 拷贝 了 数据 .然后 调用 is_sync_kiocb 函 数 检查 操作 
是 否 必须 以 同步 方式 完成 。 如 果 是 ,返回 结果 状态 ; 如果 不是 ,将 相关 信息 保存 在 一 个 
小 结构 中 ， 然 后 安排 作业 队列 ， 接 着 返回 -EIOCBQUEUED。 
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到 此 为 止 ， 将 控制 权 返回 给 了 用 户 空间 。 
接着 ,作业 队列 执行 了 完整 操作 : 


static void scullp do deferred_op (void *p) 
{ 
struct async_work *stuff = (struct async work *) p; 
aio_complete(stuff~>iocb, stuff->result, 0); 
kfree{lstuff); 
} 
这 里 仅仅 使 用 保存 的 信息 调用 了 aio_compiete 函数 。 一 个 实际 驱动 程序 的 异步 MO 实现 
当然 比 这 复杂 ， 但 是 其 基本 模式 不 会 变 。 


直接 内 存 访 问 


直接 内 存 访问 ,或 者 DMA， 是 关于 内 存 问 题 讨论 的 高 级 部 分 。DMA 是 一 种 硬件 机 制 ， 
它 允 许 外 围 设备 和 主 内 存 之 间 直 接 传 输 它们 的 1/0 数据 ， 而 不 需要 系统 处 理 器 的 参与 。 
使 用 这 种 机 制 可 以 大 大 提高 与 设备 通信 的 吞吐 量 ， 因 为 免除 了 大 量 的 计算 开销 。 


DMA 数据 传输 概览 
在 介绍 编程 细节 之 前 ， 先 回顾 一 下 DMA 传输 是 如 何 发 生 的 ， 为 了 简化 问题 ， 只 考虑 输 
入 传输 。 


有 两 种 方式 引发 数据 传输 : 或 者 是 软件 对 数据 的 请 求 ( 比如 通过 read 函数 ), 或 者 是 硬 
件 异 步 地 将 数据 传递 给 系统 。 


在 第 一 种 情况 中 ， 所 需要 的 步骤 概括 如 下 : 

1. ， 当 进程 调用 read, 驱动 程序 函数 分 配 一 个 DMA 缓冲 区 , 并 让 硬件 将 数据 传输 到 这 
个 缓冲 区 中 。 进 程 处 于 睡眠 状态 。 

2. 硬件 将 数据 写 和 到 DMA 缓冲 区 中 ， 当 写 人 完毕 ， 产 生 一 个 中 断 。 

3， ”中断 处 理 程序 获得 输入 的 数据 , 应 答 中 断 , 并 且 唤醒 进程 , 该 进程 现在 即 可 读 取 数 
据 。 


第 二 种 情况 发 生 在 异步 使 用 DMA 时 。 比 如 对 于 一 个 数据 采集 设备 ， 即 使 没有 进程 读 取 
数据 ， 它 也 不 断 地 写 入 数据。 此 时 ,驱动 程序 应 该 维护 一 个 缓冲 区 ,其 后 的 read 调用 将 
返回 所 有 积累 的 数据 给 用 户 空间 。 这 种 传输 方式 的 步骤 有 所 不 同 : 


1. ”硬件 产生 中 断 ， 宣 告 新 数据 的 到 来 。 
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2. 中断 处 理 程序 分 配 一 个 缓冲 区 ， 并 且 告 诉 硬件 向 哪里 传输 数据 。 
3. ”外 围 设 备 将 数据 写 人 缓冲 区 、 完 成 后 产生 另外 一 个 中 断 。 
4. ”处 理 程序 分 发 新 数据 ,唤醒 任何 相关 进程 ， 然 后 执行 清理 工作 。 


另 一 种 异步 方法 可 在 网 卡 中 看 到 。 网 卡 期 望 在 内 存 中 建 有 一 个 循环 缓冲 区 (通常 叫做 
DMA 环形 缓冲 区 ), 并 与 处 理 器 共享 ; 每 个 输入 的 数据 包 都 放 入 缓冲 器 环 中 的 下 一 个 可 
用 缓冲 器 中 ,然后 引发 中 断 。 接 着 驱动 程序 将 数据 包 发 送 给 内 核 其 他 部 分 处 理 ， 并 在 环 
形 缓冲 区 中 放置 一 个 新 的 DMA 缓冲 区 。 


上 述 情 况 的 处 理 步骤 强调 , 高 效 的 DMA 处 理 依 赖 于 中 断 报告 。 虽 然 可 以 使 用 轮 询 的 虹 
动 程序 实现 DMA, 但 这 没有 意义 , 因为 一 个 轮 询 驱动 程序 会 将 DMA 相对 于 简单 的 处 理 
器 驱动 TO 获得 的 性 能 优势 抵消 掉 ( 注 4)。 


这 里 介绍 的 另外 一 个 相关 术语 是 DMA 缓 冲 区 . DMA 需 要 设备 驱动 程序 分 配 一 个 或 者 多 
个 适合 执行 DMA 的 特殊 缓冲 区 。 请 注意 许多 驱动 程序 在 初始 化 阶段 分 配 了 它们 的 缓冲 
区 ， 并 且 一 直 使 用 它们 直到 关闭 一 一 在 前 面 涉及 到 的 “分 配 ”一 词 含义 是 “保持 一 个 
已 经 分 配 的 缓冲 区 ”。 


分 配 DMA 缓冲 区 


本 节 主 要 讨论 在 低层 分 配 DMA 缓冲 区 的 方法 , 很 快 就 会 介绍 一 个 较 高 层 的 接口 ,但 仍 
要 正确 理解 这 里 介绍 的 内 容 。 


使 用 DMA 缓冲 区 的 主要 问题 是 : 当 大 于 一 页 时 ， 它 们 必须 占据 连续 的 物理 页 ， 这 是 因 
为 设备 使 用 ISA 或 者 PCI 系 统 总 线 传输 数据 ,而 这 两 种 方式 使 用 的 都 是 物理 地 址 。 有 趣 
的 是 ， 这 种 限制 对 SBus (参看 第 十 二 章 中 “SBus” 一 节 ) 是 无 效 的 ， 因 为 它 在 外 国 总 
线 上 使 用 了 虚拟 地 址 。 某 些 体 系 架构 的 PCI 总 线 也 可 以 使 用 虚拟 地 址 , 但 是 出 于 可 移植 
性 的 考虑 ， 我 们 不 建议 使 用 这 个 特性 。 


虽然 既 可 以 在 系统 启动 时 ， 也 可 以 在 运行 时 分 配 DMA 缓冲 区 , 但 是 模块 只 能 在 运行 时 
刻 分 配 它们 的 缓冲 区 (在 第 八 章 中 论述 了 该 技术 ,其 中 的 “获得 更 多 缓冲 区 ”一 节 讲 述 
了 在 系统 启动 时 分 配 的 方法 ， 而 “kmalloc” 和 “get_free_page 及 其 辅助 函数 ”一 节 中 
描述 了 运行 时 分 配 的 方法 )。 驱 动 程序 作者 必须 谨慎 地 为 DMA 操作 分 配 正确 的 内 存 类 
型 ， 因 为 并 不 是 所 有 内 存 区 间 都 适合 DMA 操作 。 在 实际 操作 中 ， 一 些 设备 和 一 些 系统 
中 的 高 端 内 存 不 能 用 于 DMA ， 这 是 因为 外 围 设 备 不 能 使 用 高 端 内 存 的 地 址 。 





注 4: 当然 , 任何 事情 都 有 例外 。 请 阅读 第 十 七 章 的 “ 比 解 接收 中 断 "， 其 中 说 明了 如 何 使 用 轮 
询 实现 最 好 的 高 性 能 网 络 驱动 杏 序 。 








在 现代 总 线 上 的 大 多 数 设 备 能 够 处 理 32 位 地 址 ,这 意味 着 常用 的 内 存 分 配 机 制 能 很 好 地 
工作 。 一 些 PCI 设 备 没 能 实现 全 部 的 PCI 标 准 , 因此 不 能 使 用 32 位 地 址 , 而 一 些 1SA 设 
备 还 局 限 在 使 用 24 位 地 址 的 阶段 。 


对 于 有 这 些 限制 的 设备 , 应 使 用 GFP_DMA 标 志 调 用 kmalloc 或 者 get_free_pages 从 DMA 
区 间 分 配 内 存 。 当 设置 了 该 标志 时 ， 只 有 使 用 24 位 寻 址 方式 的 内 存 才 能 被 分 配 。 另 外 ， 
还 可 以 使 用 通用 DMA 层 (不 久 会 讲 到 ) 来 分 配 缓 冲 区 ， 这 样 也 能 满足 对 设备 限制 的 需 
求 。 


DIY 分 配 

读者 已 经 知道 get_free_pages 函数 可 以 分 配 多 达 几 M 字 节 的 内 存 (最 高 可 以 达到 
MAX_ORDER、 目 前 是 11 )， 但 是 对 较 大 数量 的 请 求 ， 甚 至 是 远 少 于 128KB 的 请 求 也 通 
常会 失败 ， 这 是 因为 此 时 系统 内 存 中 充满 了 内 存 碎 片 ( 注 5)。 


当 内 核 不 能 返回 请 求 数量 的 内 存 , 或 者 需要 大 于 128KB 内 存 (比如 PCI 帧 捕获 卡 的 普遍 
请 求 ) 的 时 候 ， 相 对 于 返回 -ENOMEM， 另 外 一 个 办 法 是 在 引导 时 分 配 内 存 ， 或 者 为 组 
冲 区 保留 顶部 物理 RAM。 我 们 已 经 在 第 八 章 的 “获得 更 多 缓冲 区 ”一 节 讲 述 了 如 何在 引 
导 人 时 分 配 内 存 ， 但 对 模块 来 说 这 是 不 可 行 的 。 在 引导 时 ， 我 们 可 以 通过 向 内 核 传递 
“mem= 参数 ”的 办 法 保留 顶部 的 RAM。 比 如 系统 有 256MB 内 存 ， 参 数 “mem=255M” 
将 使 内 核 不 能 使 用 顶部 的 1M 字 节 。 随后， 模块 可 以 使 用 下 面 的 代码 获得 对 该 内 存 的 访 
问 权 : 


dmabuf = ioremap (0xFF00000 /* 255M */, Ox100000 /* 1M */); 


随 本 书 附带 的 例子 代码 中 有 一 个 分 配器 ， 它 提供 了 一 个 API 用 来 探测 和 管理 保留 的 
RAM ,并 且 在 多 种 体系 架构 中 能 成 功 使 用 .但 是 该 分 配器 不 能 在 配置 有 高 端 内 存 的 系统 
上 使 用 (比如 物理 内 存 数量 超出 CPU 地 址 空间 的 系统 )。 


还 有 一 个 办 法 是 使 用 GFP_NOFAIL 分 配 标志 来 为 缓冲 区 分 配 内 存 。 但 是 该 方法 为 内 存 
管理 子 系统 带 来 了 相当 大 的 压力 ,因此 为 整个 系统 带 来 了 风险 。 所 以 , 如 果 不 是 实在 没 
有 其 他 更 好 的 方法 ， 最 好 不 要 使 用 这 个 标志 。 


如 果 需 要 为 DMA 缓冲 区 分 配 一 大 块 内 存 ， 最 好 考虑 一 下 是 否 有 替代 的 方法 。 如 有 果 设备 
支持 分 散 /聚集 IO , 则 可 以 将 缓冲 区 分 配 成 多 个 小 块 ,设备 会 很 好 地 处 理 它们 。 当 在 用 





注 5: “ 碑 片 ”一 词 通常 用 于 磁盘 ,用 来 说 明 在 磁 介 质 上 , 文件 并 不 是 连续 存放 的 。 相 同 的 概念 
也 可 以 应 用 于 内 存 , 由 于 每 个 虚拟 地 址 空间 分 散在 整个 物理 RAM 中 ,因此 当 请 求 DMA 
缚 冲 区 时 ， 也 难以 菊 得 连续 的 空闲 页 。 
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户 空间 中 执行 直接 WO 的 时 候 , 也 可 以 用 分 散 /聚集 IO,。 当 需 要 有 一 大 块 缓冲 区 的 时 候 ， 
这 是 最 好 的 解决 方案 。 


总 线 地 址 


使 用 DMA 的 设备 驱动 程序 将 与 连接 到 总 线 接口 上 的 硬件 通信 ,硬件 使 用 的 是 物理 地 址 ， 
而 程序 代码 使 用 的 是 虚拟 地 址 。 


实际 上 情况 比 这 还 要 复杂 些 。 基于 DMA 的 硬件 使 用 总 线 地 址 , 而 非 物理 地 址 。 虽然 ISA 
和 PCI 总 线 地 址 只 是 PC 上 的 简单 物理 地 址 ， 但 是 对 其 他 平台 来 说 ， 却 不 总 是 这 样 。 有 
时 接口 总 线 是 通过 将 MO 地 址 映射 到 不 同 物理 地 址 的 桥接 电路 连接 的 。 某 些 系统 甚至 有 
页 面 映射 调度 ， 能 够 使 任意 页 面 在 外 围 总 线 上 表现 为 连续 的 。 


在 最 底层 ( 一 会 将 要 介绍 较 高 层 的 解决 方案 ), Linux 内 核 通 过 输出 在 <asm/io.h> 中 定义 
的 一 些 函 数 , 提供 了 可 移植 的 方案 。 我 们 不 推荐 使 用 这 些 函 数 , 因为 只 有 在 那些 拥有 非 
常 简单 IO 的 体系 架构 中 ， 它 们 才能 工作 正常 ; 虽然 如 此 ,在 阅读 内 核 代码 时 还 是 会 遇 
到 它们 。 


unsigned long virt_to_bus (volatile void *address)}; 
void *bus to virt(unsigned long aqddqress) ; 


这 些 函 数 在 内 核 远 辑 地 址 和 总 线 地 址 间 执 行 了 简单 的 转换 。 但 对 于 必须 使 用 1/0 内 存 管 
理 单元 或 者 必须 使 用 回 弹 缓冲 区 的 情况 下 , 它们 将 不 能 工作 。 执行 这 些 转 换 的 正确 方法 
是 使 用 通用 DMA 层 ， 因 此 现在 来 讨论 这 个 主题 。 


通用 DMA 层 


DMA 操作 最 终 会 分 配 缓冲 区 ， 并 将 总 线 地 址 传递 给 设备 。 一 个 可 移植 的 驱动 程序 要 求 
对 所 有 体系 架构 都 能 安全 而 正确 地 执行 DMA 操作 , 编写 这 样 一 个 驱动 程序 的 难度 超出 
了 一 般 人 的 想像 。 不 同 的 系统 对 处 理 缓存 一 致 性 上 有 不 同 的 方法 ; 如 果 不 能 正确 处 理 该 
问题 ， 驱 动 程序 会 引起 内 存 冲突 。 一 些 系统 拥有 复杂 的 总 线 硬 件 ， 使 得 DMA 任务 或 变 
得 简单 , 或 变 得 困难 。 并 且 不 是 所 有 的 系统 都 能 对 全 部 的 内 存 执行 DMA.。 幸运 的 是 , 内 
核 提供 了 一 个 与 总 线 一 一 体系 架构 无 关 的 DMA 县 ， 它 会 隐藏 大 多 数 问题 。 强 烈 建议 
在 编写 驱动 程序 时 ， 为 DMA 操作 使 用 该 层 。 


下 面 许多 函数 都 需要 一 个 指向 device 结 构 的 指针 。 该 结构 是 在 Linux 设备 模型 中 用 来 
表示 设备 底层 的 。 驱 动 程序 通常 不 直接 使 用 该 结构 ， 但 是 在 使 用 通用 DMA 层 时 ， 需 要 
使 用 它 。 该 结构 内 部 隐藏 了 描述 设备 的 总 线 细节 。 比 如 可 以 在 Pci_device 结构 或 者 
usb_device 结构 的 dev 成员 中 发 现 它 。 
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使 用 下 列 函 数 的 虹 动 程序 都 要 包含 头 文件 <linux/dma-mapping.h>。 


处 理 复 杂 的 硬件 

在 执行 DMA 之 前 ， 第 一 个 必须 回答 的 问题 是 : 是 个 给 定 的 设备 在 当前 主机 上 具备 执行 
这 些 操作 的 能 力 。 出 于 很 多 原因 , 许多 设备 受 限 于 它们 的 寻 址 范围 。 默 认 的 情况 下 , 内 
核 假设 设备 都 能 在 32 位 地 址 上 执行 DMA .。 如果 不 是 这 样 , 应 该 调用 下 面 的 函数 通知 内 
核 : 


int dma_set mask{struct device *dev, u64 mask); 


该 掩 码 显示 与 设备 能 寻 址 能 力 对 应 的 位 。 比 如 设备 受 限于 24 位 寻 址 ， 则 mask 应 该 是 
0x0FFFFFF。 如 果 使 用 指定 的 mask 时 DMA 能 正常 工作 ， 则 返回 非 零 值 。 如 果 
dma_set_mask 返回 0， 则 对 该 设备 不 能 使 用 DMA。 因 此 ， 一 个 受 限于 24 位 DMA 操作 
的 驱动 程序 初始 化 代码 有 如 下 的 形式 : 
it (dma_set_mask (dev, 0xffffff)) 
card->use_dma = 于 
else { 
card->use_dma = 0; 
/* 不 得 不 在 没有 DMA 情况 下 操作 */ 
printk {KERN_WARN, "mydev: DMA not supported\n"); 
} 


再 强调 一 遍 ， 如 果 设 备 支 持 常 见 的 32 位 DMA 操作 ， 则 没有 必要 调用 dma_set_mask。 


DMA 了 映射 

一 个 DMA 映 射 是 要 分 配 的 DMA 缓 冲 区 与 为 该 缓冲 区 生成 的 、 设备 可 访问 地 址 的 组 合 。 
我 们 可 以 通过 对 virt_to_bus 函数 的 调用 获得 该 地 址 , 但 是 有 许多 理由 建议 不 要 这 么 做 。 
第 一 个 理由 是 具有 IOMMU 的 硬件 为 总 线 提供 了 一 套 映射 寄存 器 。IOMMU 在 设备 可 访 
问 的 地 址 范围 内 规划 了 物理 内 存 , 使 得 物理 上 分 散 的 缓冲 区 对 设备 来 说 变 成 连续 的 。 对 
IOMMU 的 运用 需要 使 用 到 通用 DMA 层 ， 而 virt_to_bus 函数 不 能 完成 这 个 任务 。 


请 注意 不 是 所 有 的 体系 架构 都 有 IOMMU; 特别 是 常见 的 x86 平 台 没 有 对 IOMMU 的 支 
持 。 但 是 ， 一 个 正确 的 驱动 程序 不 需要 知道 其 运行 系统 上 的 IO 支持 硬件 。 


在 某 些 情况 下 , 为 设备 设置 可 用 地 址 需要 建立 回 弹 缓冲 区 。 当 驱 动 程序 要 试图 在 外 围 设 
备 不 可 访问 的 地 址 上 执行 DMA 时 (比如 高 端 内 存 ), 将 创建 回 弹 缓冲 区 。 然后， 必要 时 
会 将 数据 写 和 或 者 读 出 回 弹 缓冲 区 。 对 回 弹 缓冲 区 的 使 用 势必 会 降低 系统 性 能 , 但 有 的 
时 候 却 没 有 其 他 可 替代 的 方法 。 
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DMA 映射 必须 解决 缓存 一 致 性 的 问题 。 现 代 处 理 器 在 内 部 的 快速 缓存 器 中 保存 了 最 近 
访问 的 内 存 区 域 ; 没有 该 缓存 器 , 将 得 不 到 期 望 的 性 能 。 如 果 设 备 改变 了 主 内 存 中 的 区 
域 , 则 任何 覆盖 该 区 域 的 处 理 器 缓存 都 将 无 效 ; 否则 处 理 器 将 使 用 不 正确 的 主 内 存 映 射 ， 
从 而 产生 不 正确 的 数据 。 与 此 类 似 ， 当 设备 使 用 DMA 从 主 内 存 中 读 取 数据 时 ， 在 处 理 
器 缓存 中 的 任何 改变 也 必须 立刻 得 到 刷新 ,这 些 缓存 一 致 性 的 问题 为 系统 带 来 诸多 不 确 
定 因素 , 如 果 程 序 员 不 细致 谨慎 的 话 , 这 些 错误 非常 难以 查找 。 一些 体 系 架构 在 硬件 中 
管理 缓存 的 一 致 性 , 但 是 其 他 一 些 体系 架构 则 需要 软件 的 支持 。 通 用 DMA 层 竭 尽 全 力 
来 保证 在 所 有 体系 架构 中 都 能 正常 运行 , 但 是 必须 看 到 , 正确 的 行为 需要 一 套 规则 来 保 
障 。 


DMA 映射 建立 了 一 个 新 的 结构 类 型 一 一 dma_aGGr_t 来 表示 总 线 地 址 。dma_addr_t 
类 型 的 变量 对 驱动 程序 是 不 透明 的 ;唯一 允许 的 操作 是 将 它们 传递 给 DMA 支持 例 程 以 
及 设备 本 身 。 作 为 一 个 总 线 地 址 ， 如 果 CPU 直接 使 用 了 ama_addr 上， 将 会 导致 发 生 
不 可 预期 的 问题 。 


根据 DMA 缓冲 区 期 望 保留 的 时 间 长 短 ，PCI 代 码 区 分 两 种 类 型 的 DMA 映射 : 


一 致 性 DMA 映射 
这 种 类 型 的 映射 存在 于 驱动 程序 生命 周期 中 。 一 致 性 映射 的 缓冲 区 必须 可 同时 被 
CPU 和 外 国 设备 访问 (其 他 类 型 的 映射 , 如 后 面 将 要 讨论 的 类 型 , 在 给 定时 刻 只 能 
被 一 个 设备 访问 )。 因 此 一 致 性 映射 必须 保存 在 一 致 性 缓存 中 。 建 立 和 使 用 一 致 性 
映射 的 开销 是 很 大 的 。 

流 式 DMA 映射 
通常 为 单独 的 操作 建立 流 式 映射 。 当 使 用 流 式 映射 时 , 一 些 体系 架构 可 以 最 大 程度 
地 优化 性 能 , 但 是 这 些 映 射 也 要 服从 一 组 更 加 严格 的 访问 规则 。 内 核 开 发 者 建议 尽 
量 使 用 流 式 映射 , 然后 再 考虑 一 致 性 映射 。 这 人 么 做 有 两 个 原因 。 第 一 个 原因 是 在 支 
持 映射 寄存 器 的 系统 中 ， 每 个 DMA 映射 使 用 总 线 上 的 一 个 或 者 多 个 映射 寄存 器 。 
一 致 性 映射 具有 很 长 的 生命 周期 , 因此 会 在 相当 长 的 时 间 内 占用 这 些 寄存 器 , 甚至 
在 不 使 用 它们 的 时 候 也 不 释放 所 有 权 。 第 二 个 原因 是 在 一 些 硬件 中 , 流 式 映射 可 以 
被 优化 ， 但 优化 的 方法 对 一 致 性 映射 无 效 。 


必须 用 不 同 的 方法 操作 这 两 种 映射 ， 下 面 详细 描述 操作 细节 。 


建立 一 致 性 DMA 映射 
驱动 程序 可 调用 pci_alloc_consistent 函数 建立 一 致 性 映射 : 


void *dma_alloc_coherent (struct device *dev, size_t size, 
Ama_addr_t *dma_handle, int flag); 
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该 函数 处 理 了 缓冲 区 的 分 配 和 映射 。 前 两 个 参数 是 device 结 构 和 所 需 缓冲 区 的 大 小 。 函 
数 在 两 处 返回 DMA 映射 的 结果 。 函 数 的 返回 值 是 缓冲 区 的 内 核 虚拟 地 址 ， 可 以 被 驱动 
程序 使 用 ; 而 与 其 相关 的 总 线 地 址 、 返 回 时 保存 在 ama_handle 中 。 该 函数 对 分 配 的 
缓冲 区 做 了 一 些 处 理 , 从 而 缓冲 区 可 用 于 DMA; 通常 只 是 通过 get_free_pages 函数 分 配 
内 存 (请 注意 size 是 以 字 市 为 单位 的 , 而 不 是 回 次 的 值 )。f1ag 参数 通常 是 描述 如 何 分 
配 内 存 的 GFP_ 值 ; 通常 是 GFP_KERNEL 或 者 是 GFP_ATOMIC (在 原子 上 下 文中 运行 
时 )。 


当 不 再 需要 缓冲 区 时 (通常 在 模块 卸载 的 时 候 ), 调用 dma_free_coherent 向 系统 返回 缓 
种 区 : 
void dma_free_coherent (struct device *dev, size_t size, 
void *vaddr, dma addr t dma_handle) ; 
请 注意 该 函数 与 其 他 通用 DMA 函数 一 样 ， 需 要 提供 缓 串 区 大 小 、CPU 地 址 、 总 线 地 址 
等 参数 。 


DMA 池 

DMA 池 是 一 个 生成 小 型 、 一致 性 DMA 映 射 的 机 制 。 调用 dma_alioc_coherent 户 数 获 得 
的 映射 , 可 能 其 最 小 大 小 为 单个 页 。 如 果 设 备 需要 和 的 DMA 区 域 比 这 还 小 ,就 要 使 用 DMA 
池 了 。 在 对 内 嵌 于 某 个 大 结构 中 的 小 型 区 域 执行 DMA 时 , 也 可 以 使 用 DMA 池 ,一 些 不 
容易 察觉 的 驱动 程序 一 致 性 缓存 错误 ,往往 存在 于 结构 中 与 小 型 DMA 区 域 相 邻 的 成 员 
中 。 为 了 避免 这 一 问题 的 出 现 ,应 该 总 是 显 式 地 为 DMA 操 作 分 配 区 域 ,而 与 其 他 非 DMA 
数据 结构 的 操作 分 开 。 


在 <linux/dmapool.h> 中 定义 了 DMA 池 的 图 数 。 
DMA 池 必 须 在 使 用 前 ， 调 用 下 面 的 函数 创建 : 


struct dma_pool *dma_pool_create{const char *name, struct device *dev, 


size_t size, size_t align, 
size_t allocation); 


这 里 ,name 是 DMA 池 的 名 字 ，dev 是 device 结 构 ，size 是 从 该 池 中 分 配 的 缓冲 区 的 
大 小 .align 是 该 地 分 配 操作 所 必须 遵守 的 硬件 对 齐 原则 (用 字 节 表示 )， 如 果 
allocation 不 为 零 ， 表示 内 存 边 界 不 能 超越 allocation。 比 如 传人 的 allocation 是 
4096， 从 该 池 中 分 配 的 缓冲 区 不 能 跨越 4KB 的 界限 。 


当 使 用 完 DMA 池 后 ， 调 用 下 面 的 函数 释放 : 


void dma_pool_destroy (Struct dma pool *pool); 
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在 销毁 前 ， 必 须 向 DMA 池 返 回 所 有 分 配 的 内 存 。 
使 用 dma_pool_alloc 函数 处 理 分 配 问题 : 


void *dma_pool_alloc(struct dma pool *pool, int mem_flags, 
Gma_addr_t *handle}); 
在 这 个 函数 中 , mem_flags 通常 设置 为 GFP_ 分配 标志 。 如 果 一 切 正常 ， 将 分 配 并 返 
回 内 存 区 域 (拥有 创建 DMA 池 时 指定 的 大 小 )。 像 dma_alloc_coherent 函数 一 样 ,返回 
的 DMA 缓冲 区 的 地 址 是 内 核 虚 拟 地 址 ， 并 作为 总 线 地 址 保存 在 handale 中 。 


使 用 下 面 的 函数 返回 不 需要 的 缓冲 区 : 


void dma pool_freel(lstruct dma pool *pool, void *vaddr, dma_addr_t addr}; 


建立 流 式 DMA 映射 

由 于 多 种 原因 , 流 式 映射 具有 比 一 致 性 映射 更 为 复杂 的 接口 。 这 些 映射 希望 能 与 已 经 由 
驱动 程序 分 配 的 缓冲 区 协同 工作 , 因而 不 得 不 处 理 那些 不 是 它们 选择 的 地 址 。 在 某 些 体 
系 架构 中 ， 流 式 映射 也 能 够 拥有 多 个 不 连续 的 页 和 多 个 “分 散 /聚集 ”缓冲 区 。 出 于 上 
面 这 些 原 因 的 考虑 ， 流 式 映射 拥有 自己 的 设置 函数 。 


当 建立 流 式 映射 时 , 必须 告诉 内 核 数据 流动 的 方向 。 为 此 定义 了 一 些 符 号 (dama_dqata_ 
qirection 枚 举 类 型 ): 


DMA_TO_DEVICE 

DMA_FROM_DEVICE 
这 两 个 符号 的 作用 很 明显 。 如 果 数 据 被 发 送 到 设备 (可 能 使 用 wrire 系统 调用 作为 
响应 )， 应 使 用 DMA_TO_DEVICE; 而 如 果 数 据 被 发 送 到 CPU ， 则 使 用 
DMA_FROM_DEVICE。 


DMA_ BIDIRECTIONAL ; 
如 果 数 据 可 双向 移动 ， 则 使 用 DMA_BIDIRECTIONAL。 

DMA_NONE 
提供 该 符号 只 是 出 于 调试 目的 。 如 果 要 使 用 设置 了 该 符号 的 缓冲 区 , 会 导致 内 核 错 
误 。 


可 能 有 的 读者 认为 任何 时 候 都 使 用 DMA_BIDIRECTIONAL 就 可 以 了 , 但 是 驱动 程序 作 
者 不 能 这 么 做 。 在 一 些 体 系 架构 中 ， 可 能 会 为 这 个 选择 付出 很 大 的 性 能 代价 。 


当 只 有 一 个 缓冲 区 要 被 传输 的 时 候 ， 使 用 dma_map_single 函数 映射 它 : 
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Gma_addr_t dma_map_singlel{struct device *dev, void *buffer, size_t size, 
enum dma_data_direction direction); 


返回 值 是 总 线 地 址 ， 可 以 把 它 传递 给 设备 ; 如 果 执 行 遇 到 错误 ， 则 返回 NULL。 
当 传 输 完毕 后 ， 使 用 dma_unmap_single 函数 删除 映射 : 


void dma unmap_single(struct device *dev, dma addr t dma_addqr，size_t size, 
enum dma_data_direction direction); 


在 该 函数 中 ，size 和 direction 参数 必须 与 映射 缓 促 区 的 参数 相 匹 配 。 
有 几 条 非常 重要 的 原则 用 于 流 式 DMA 映射: 


。 ”缓冲 区 只 能 用 于 这 样 的 传送 ， 即 其 传送 方向 匹配 于 映射 时 给 定 的 方向 值 。 


。 ”一 旦 缓冲 区 被 映射 , 它 将 属于 设备 ,而 不 是 处 理 器 。 直 到 缓冲 区 被 撤销 映射 前 ， 驱 
动 程序 不 能 以 任何 方式 访问 其 中 的 内 容 。 只 有 当 drma_xrzmap_singie 范 数 被 调用 后 ， 
驱动 程序 才能 安全 访问 缓 神 区 中 的 内 容 (还 存在 一 个 例外 ,不久 就 会 看 到 )。 尤 其 
要 说 明 的 是 , 这 条 规则 意味 着 : 在 包含 了 所 有 要 写 入 的 数据 之 前 , 不 能 映射 要 写 人 
设备 的 缓冲 区 。 


。 ”在 DMA 处 于 活动 期 间 内 , 不 能 撤销 对 缓冲 区 映射 , 否则 会 严重 破坏 系统 的 稳定 性 。 


读者 可 能 提出 疑问 : 为 什么 在 缓冲 区 被 映射 后 , 驱动 程序 不 能 访问 它 ? 有 两 个 原因 来 解 
释 这 条 规则 。 第 一 ， 当 一 个 缓冲 区 建立 DMA 映射 时 ， 内 核 必须 保证 在 该 缓冲 区 内 的 全 
部 数据 都 被 写 信 了 内 存 。 当 调用 dma_unmap_single 国 数 时 ， 很 可 能 有 一 些 数据 还 在 处 
理 器 的 缓存 中 ,因此 必须 被 显 式 刷 新 。 在 刷新 动作 后 , 处 理 器 写 人 缓冲 区 的 数据 对 设备 
是 不 可 见 的 。 


第 二 , 如 果 要 映射 的 缓冲 区 位 于 设备 不 能 访问 的 内 存 区 段 时 , 该 怎么 办 ?一 些 体系 架构 
会 只 产生 一 个 错误 , 但 是 其 他 一 些 体系 架构 将 创建 一 个 回 弹 缓冲 区 。 回 弹 缓冲 区 是 内 存 
中 的 独立 区 域 , 它 可 被 设备 访问 。 如果 使 用 DMA_TO_DEVICE 方 向 标志 映射 缓冲 区 , 并 
且 需 要 使 用 回 弹 缓冲 区 , 则 在 最 初 缓冲 区 中 的 内 容 作 为 映射 操作 的 一 部 分 被 拷贝 。 很 明 
显 ， 在 拷贝 操作 后 ， 最 初 缓 钟 区 内 容 的 改变 对 设备 也 是 不 可 见 的 。 同 样 
DMRA_FROM_DEVICE 回 弹 缓冲 区 被 dma_xnmap_single 国 数 拷贝 回 最 初 的 缓冲 区 中 , 也 
就 是 说 ， 直 到 拷贝 操作 完成 ， 来 自 设 备 的 数据 才 可 用 。 


顺便 说 一 下 ,为 什么 获得 正确 的 传输 方向 是 一 个 重要 的 问题 , 回 弹 缓冲 区 就 是 一 个 解释 。 
DMA_BIDIRECTIONAL 回 弹 缓冲 区 在 操作 前 后 都 要 拷贝 数据 , 这 通常 会 浪费 不 必要 的 
CPU 指令 周期 。 
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有 了 时候 ， 驱 动 程序 需要 不 经 过 撤销 映射 就 访问 流 式 DMA 缓冲 区 的 内 容 ， 为 此 内 核 提供 
了 如 下 调用 : 
void dma_sync_single_for_cpulstruct device *dev, dma_handle_t bus_addr, 
size t size, enum dma_data_ direction Girection); 
应 该 在 处 理 器 访问 流 式 DMA 缓冲 区 前 调用 该 函数 。 一 旦 调用 了 该 函数 ， 处 理 器 将 “ 拥 
有 ”DMA 缓冲 区 ， 并 可 根据 需要 对 它 进 行 访问 。 然 而 在 设备 访问 缓冲 区 前 ， 应 该 调用 
下 面 的 函数 将 所 有 权 交 还 给 设备 : 


void dma_sync_single_for_device(Struct device *dev, dma _ handle 上 t bus.addr, 
size_t size, enum dma_data_ direction directicn) ; 


再 次 强调 ， 处 理 器 在 调用 该 函数 后 ， 不 能 再 访问 DMA 缓冲 区 了 。 


单 页 流 式 映射 
有 时 候 , 要 为 page 结构 指针 指向 的 缓冲 区 建立 映射 ， 这 种 情况 是 有 可 能 发 生 的 ， 比 如 
使 用 get_user_pages 映 射 用 户 空间 缓 促 区 。 使 用 下 面 的 函数 ,建立 和 撤销 使 用 page 结 
构 指 针 的 流 式 映射 : 

dma_addr.t dma_map_page{struct device *dev, struct page *page, 


unsigqned long offset, size_t size, 
enum dma_data_direction direction); 


void dma_unmap_page{struct device *dev, dma_addr_t dma_address, 
size t size, enum dma_data_direction direction); 


offset 和 size 参 数 用 于 映射 一 页 中 的 一 部 分 。 建议 尽 量 避 免 映射 部 分 内 存 页 ， 除非 
明了 其 中 的 原理 。 如 果 分 配 的 页 是 缓存 流水 线 的 一 部 分 , 则 映射 部 分 页 会 引起 一 致 性 问 
题 ， 比 如 内 存 冲 突 ， 以 及 产生 非常 难以 调试 的 代码 缺陷 等 。 


分 散 / 聚 集 映射 

分 散 /集聚 集 映射 是 一 种 特殊 类 型 的 流 式 DMA 了 映射 。 假设 有 几 个 缓冲 区 , 它们 需要 与 设 
备 双向 传输 数据 。 有 几 种 方式 能 产生 这 种 情形 , 包括 从 readv 或 者 writev 系 统 调用 产生 ， 
从 集群 的 磁盘 O 请 求 产生 ， 或 者 从 映射 的 内 核 TO 缓冲 区 中 的 页 面 链表 产生 。 可 以 简 
单 地 依次 映射 每 一 个 缓冲 区 并 且 执 行 请 求 的 操作 ,但 是 一 次 映射 整个 缓冲 区 表 还 是 很 有 
利 的 。 


许多 设备 都 能 接受 一 个 指针 数组 的 分 散 表 ,以 及 它 的 长 度 ， 然 后 在 一 次 DMA 操作 中 把 
它们 全 部 传输 走 。 比 如 将 所 有 的 数据 包 放 在 多 个 数据 单元 中 ,“ 零 拷贝 ”网 络 非 常 容易 
实现 。 把 分 散 表 作 为 一 个 整体 的 另外 一 个 原因 是 , 充分 利用 那些 在 总 线 硬件 中 含有 映射 
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寄存 器 系统 的 优点 。 在 这 些 系 统 中 ， 从 设备 角度 上 看 ,物理 上 不 连续 的 内 存 页 ， 可 以 被 
组 装 成 一 个 连续 数组 。 这 种 技术 只 能 用 在 分 散 表 中 的 项 在 长 度 上 等 于 页 面 大 小 的 时 候 
(除了 第 一 个 和 最 后 一 个 之 外 ), 但 是 在 其 工作 时 ， 它 能 够 将 多 个 操作 转化 成 单个 DMA 
操作 ， 因 而 能 够 加 速 处 理工 作 。 


最 后 ,如 果 必 须 用 到 回 弹 缓冲 区 ,将 整个 表 接 合成 一 个 单个 缓冲 区 是 很 有 意义 的 (因为 
无 论 如 何 它 也 会 被 复制 )。 


所 以 现在 可 以 确信 在 某 些 情况 下 分 散 表 的 映射 是 值得 做 的 ,映射 分 散 表 的 第 … 步 是 建立 
并 填充 一 个 描述 被 传送 缓冲 区 的 scatterlist 结 构 的 数组 .该 结构 是 与 体系 架构 相关 
的 ， 并且 在 头 文件 <linux/scatterlist.h> 中 描述 。 然 而 ， 该 结构 会 始终 包含 两 个 成 员 : 


struct page *page; 
与 在 scatter/gather 操作 中 用 到 缓冲 区 相对 应 的 page 结构 指针 。 
unsigned int length; 


unsigned int offset; 


在 页 内 缓冲 区 的 长 度 和 偏 移 量 。 


为 了 映射 一 个 分 散 /聚集 DMA 操 作 , 驱动 程 序 应 当 为 传输 的 每 个 缓冲 区 化 scatterlist 
结构 对 应 人 口 项 上 设置 page、offset 和 1length 成 员 。 然 后 调用 : 


int dma map_sg(struct device *dev, struct scatterlist *sg, int nents, 
enum dma_data_direction direction) 


这 里 的 nents 是 传人 的 分 散 表 入 口 的 数量 。 返回 值 是 要 传送 的 DMA 缓 冲 区 数 ; 它 可 能 


会 小 于 nents。 


对 在 输入 分 散 表 中 的 每 一 个 缓冲 区 , dma_map_sg 函数 返回 了 指定 设备 的 正确 的 总 线 地 
址 。 作 为 任务 的 一 部 分 , 它 还 把 内 存 中 相 邻 的 缓 促 区 接合 起 来 。 如 果 运 行 驱动 程序 的 系 
统 拥有 一 个 1/O 内 存 管理 单元 ，dma_map_sg 函数 会 对 该 单元 的 映射 寄存 器 编程 ， 如 果 
没有 发 生 什么 错误 , 则 从 设备 角度 上 看 ,其 能 够 传输 一 块 连续 的 缓冲 区 。 然 而 在 调用 之 
前 ， 是 无 法 知道 传输 结果 的 。 


驱动 程序 应 该 传输 由 dma_map_sg 函数 返回 的 每 个 缓冲 区 。 总 线 地 址 和 每 个 缓冲 区 的 长 
度 被 保存 在 scatter1list 结 构 中 ,但 是 它们 在 结构 中 的 位 置 会 随 体系 架构 的 不 同 而 不 
同 。 使 用 已 经 定义 的 两 个 宏 ， 可 用 来 编写 可 移植 代码 : 


dma addr_t sg_dma_address (SETruct scatterlist *sg); 
从 该 分 散 表 的 入 口 项 中 返回 总 线 (DMA) 地 址 。 
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unsigned int sg_dma_len(Sstruct scatterlist *sg); 


返回 缓冲 区 的 长 度 。 
再 次 强调 ， 披 传输 缓冲 区 的 地 址 和 长 度 与 传递 给 ama_map_sg 国 数 的 值 是 不 同 的 。 
一 旦 传输 完毕 ， 使 用 dma_unmap_sg 国 数 解除 分 散 /聚集 映射 : 


void dma_unmap_sg(struct device *dev, struct scatterlist *1list， 
int nents, enum dma_data direction direction}; 


请 注意 , nents 一 定 是 先前 传递 给 dma_map_sg 函数 的 人 口 项 的 数量 , 而 不 是 函数 返回 
的 DMA 缓冲 区 的 数量 。 


分 散 /聚集 映射 是 流 式 DMA 了 映射 , 因此 适用 于 流 式 映射 的 规则 也 适用 于 该 种 映射 。 如 果 
必须 访问 映射 的 分 散 /聚集 列表 ， 必 须 首先 对 其 进行 同步 : 
void dma_sync_sg_for_cpulstruct device *dev, struct scatterlist *sg, 
int nents, enum dma_data direction direction); 


void dma_sync_sg_for devicelstruct device *dev, struct scatterlist *sg, 
int nents, enum dma_data direction direction}); 


PCI 双 重地 址 周期 映射 

通常 DMA 支持 层 使 用 32 位 总 线 地 址 ， 其 为 设备 的 DMA 掩 码 所 约束 。 然 而 PCI 总 线 还 
支持 64 位 地 址 模式 ， 既 双重 地 址 周期 (DAC )。 出 于 多 种 原因 ， 通 用 DMA 层 并 不 支持 
该 模式 ， 首 先 这 是 PCI 独 有 的 特性 。 其 次 , 许多 DAC 的 实现 都 是 有 缺陷 的 ， 而 且 DAC 
也 比 常用 的 32 位 DMA 要 慢 , 会 增加 性 能 开销 。 虽 然 如 此 , 还 是 有 一 些 应 用 程序 能 正确 
使 用 DAC; 如 果 设 备 需 要 使 用 放 在 高 端 内 存 的 大 块 缓冲 区 ， 可 以 考虑 实现 DAC 支持 。 
这 种 支持 只 有 对 PCI 总 线 有 效 ， 因 此 必须 使 用 与 PCI 总 线 相关 的 例 程 。 


为 了 使 用 DAC， 驱 动 程序 必须 包含 头 文件 <linux/pci.h>， 还 必须 设置 一 个 单独 的 DMA 
掩 码 : 
int pci_dac_set_dma mask(struct pci_dev *pdev, ué64 mask}); 


只 有 该 函数 返回 0 时 ， 才 能 使 用 DAC 地 址 。 


在 DAC 映 射 中 使 用 了 一 个 特殊 类 型 (dma64_addr_t)。 调 用 pci_dac_page_to_dma 消 
数 建立 一 个 这 样 的 映射 : 


dma64_addr_t pci_daac_Page_to_dma (Struct Pei_dev *pdev, struct page *page, 
unsigned long offset, int direction); 


读者 会 注意 到 ,可 以 只 使 用 page 结构 指针 〈 毕竟 它们 应 当 保存 在 高 端 内 存 中 ,否则 是 
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毫 无 意义 的 ) 来 建立 DAC 了 映射, 而 且 必须 以 一 次 一 页 的 方式 创建 它们 。 direction 参 
数 与 在 通用 DMA 层 中 使 用 的 dma_data_direction 枚 举 类 型 等 价 ， 因 此 可 以 取 
PCI_DMA_TODEVICE、PCI_DMA_FROMDEVICE 或 者 PCI_DMA_BIDIRECTIONAL。 


DAC 了 映射 不 需要 其 他 另外 的 资源 , 因此 在 使 用 过 后 , 不 需要 显 式 释放 它 。 然而 像 对 待 其 
他 流 式 映 射 一 样 对 待 它 是 必要 的 , 关于 缓冲 区 所 有 权 的 规则 也 适用 于 它 。 有 一 套用 于 同 
步 DMA 缓冲 区 的 函数 ， 其 形式 如 下 : 


void pci_dac_Gma sync_single_for_cpu(struct pci_dev *pdev, 
dma64_addr_t dma_addr, 
size t len, 
int direction); 
void pci_dac dma_sync_single_for devicel(struct pci_dev *pdev， 
dma64_addr_t dma_addr, 
size_t len, 
int direction); 


一 个 简单 的 PCI DMA 例子 


这 里 提供 了 一 个 PCI 设 备 的 DMA 例子 源 代码 , 以 说 明 如 何 使 用 DMA 映 射 。 实际 PCI 总 
线 上 的 DMA 操作 形式 ,与 它 所 驱动 的 设备 密切 相关 ， 因 此 这 个 例子 不 能 应 用 于 任何 真 
实 设备 。 但 它 是 一 个 假定 的 叫 dad (DMA Acquisition Device，DMA 获取 设备 ) 驱动 
程序 的 一 部 分 。 该 设备 的 驱动 程序 要 用 类 似 下 面 的 代码 定义 传输 函数 : 


int dad_transfer{(struct dad_dev *dev, int write, void *buffer, 
size_t count) 
{ 
Gma_addr_t bus_addr; 


/* 映射 DMA 需要 的 缓冲 区 */ 

dev->dma_dir = (write ? DMA_TO DEVICE : DMA_FROM_DEVICE); 

dev->dma_size = count; 

bus_addr = dma_map_single{&dev->pci_dev->dev, buffer, count, 
dev->dma_dir); 

dev->dma_addr = bus_addr; 


/* 设置 设备 */ 


writebldev->registers.command, DAD_CMD_DISABLEDMA); 
writebldev->registers.command, write ? DAD CMD WR : DAD_CMD_RD}; 
writel (dev->registers.addr, cpu_to_le32 (bus_adar)); 

writel (dev->registers.len, cpu_to_le32 (count) ) ; 


/* 开始 操作 */ 
writeb{dev->registers.command, DAD_CMD_ENABLEDMA); 
return 0; 
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该 函数 映射 了 准备 进行 传输 的 缓冲 区 并 且 启动 设 备 操作 。 另 一 半 工 作 必须 在 中 汤 服 务 例 
程 中 完成 ， 它 看 起 来 类 似 下 面 这 样 : 
void dad_interrupt (int irq，void *dev_id, struct pt_regs *regs) 
struct dad dev *dev = (scruct dad dev *) dev_id; 
/* 确定 该 中 断 确实 是 从 对 应 的 设备 发 来 的 */ 
/* 释放 对 DMA 缓冲 区 的 映射 */ 


dma_unmap_single (dev->pci_dev->dev, dev- >dma_addr, 
dev->dma_size, dev->dma dir); 


/* 只 有 到 现在 这 个 时 候 , 对 缓冲 区 的 访问 才 是 安全 的 , 把 它 拷贝 给 用 户 。 */ 
: 


显而易见 ， 这 个 例子 忽略 了 大 量 细节 ， 包 括 用 来 阻止 同时 开始 多 个 DMA 操作 的 必要 步 
又 。 


ISA 设备 的 DMA 


ISA 总 线 允 许 两 种 DMA 传输 : 本 地 (native) DMA 和 ISA 总 线 控制 (bus-master) DMA. 
本 地 DMA 使 用 主板 上 的 标准 DMA 控制 器 电路 来 驱动 ISA 总 线 上 的 信号 线 。 另 一 方面 ， 
ISA 总 线 控制 DMA 完全 由 外 围 设备 控制 。 后 一 种 DMA 类 型 很 少 被 使 用 , 并 且 也 不 需要 
在 这 里 讨论 ， 因 为 至 少 从 设备 角度 上 看 ， 它 与 PCI 设 备 的 DMA 非常 类 似 。 一 个 ISA 总 
线 控制 DMA 的 例子 是 1542 SCSI 控制 器 ， 它 的 驱动 程序 在 内 核 代 码 drivers/scsi/ 
ahal542.c 中。 


至 于 这 里 所 关心 的 本 地 DMA， 有 三 种 实体 涉及 到 ISA 总 线 上 的 DMA 数据 传输 : 


8237 DMA 控制 器 (DMAC ) 
控制 器 保存 了 有 关 DMA 传输 的 信息 ， 比 如 方向 、 内 存 地 址 、 传 输 数据 量 大 小 等 。 
它 还 包含 了 一 个 跟踪 传送 状态 的 计数 器 。 当 控制 器 接收 到 一 个 DMA 请 求 信号 时 ， 
它 将 获得 总 线 控制 权 并 驱动 信号 线 ， 这 样 设备 就 能 读 写 数据 了 。 


外 围 设备 
当 设备 准备 传送 数据 时 , 必须 激活 DMA 请求 信号 。 DMAC 负责 管理 实际 的 传输 工 
作 ; 当 控制 器 选 通 设备 后 , 硬件 设备 就 可 以 顺序 地 读 写 总 线 上 的 数据 。 当 传输 结束 
时 ， 设 备 通常 会 产生 一 个 中 断 。 

设备 狗 动 得 序 
需要 驱动 程序 完成 的 工作 很 少 ， 它 只 是 负责 提供 DMA 控制 器 的 方向 、 总 线 地 址 、 
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传输 量 的 大 小 等 等 。 它 还 与 外 围 设 备 通信 , 做 好 传输 数据 的 准备 ， 当 DMA 传输 完 
毕 后 ， 响 应 中 断 。 


在 PC 中 使 用 的 早期 DMA 控制 器 能 够 管理 由 个 “通道 ”， 每 个 通道 都 与 一 套 DMA 寄存 
器 相关 联 。 四 个 设备 可 以 同时 在 控制 器 中 保存 它们 的 DMA 信 息 。 现 在 的 PC 包含 了 两 个 
与 DMAC 等 价 的 设备 ( 注 6): 第 二 控制 器 ( 主 控制 器 ) 连接 系统 的 处 理 器 ， 第 一 控制 
器 (从 控制 器 ) 与 第 二 控制 器 的 0 通道 相连 〈 注 7)。 


通道 编号 从 0 到 7: 通道 4 在 内 部 用 来 将 从 属 控制 器 级 联 到 主 控制 器 上 ， 因 此 对 ISA 外 
围 设备 来 说 ,通道 4 不 可 用 。 所 以 可 用 的 通道 是 从 属 控制 器 (8 位 通道 ) 上 的 0~3 和 主 
控制 器 (16 位 通道 ) 上 的 5 -7。 每 次 DMA 传输 的 大 小 保存 在 控制 器 中 ， 它 是 一 个 16 
位 的 数 ， 表 示 传 递 所 需要 的 总 线 周 期 数 。 因 此 最 大 传输 大 小 对 从 属 控制 器 来 说 是 64KB 
(因为 它 在 一 个 周期 内 传输 8 位 )， 对 主 控制 器 来 说 是 128KB ( 它 使 用 16 位 传输 )。 


因为 DMA 控制 器 是 系统 资源 ， 因 此 内 核 协 助 处 理 这 一 资源 。 内 核 使 用 DMA 注册 表 为 
DMA 通 道 提 供 了 请 求 /释放 机 制 ,并且 提 供 了 一 组 函数 在 DMA 控 制 器 中 配置 通道 信息 。 


注册 DMA 
读者 应 该 对 内 核 注册 表 很 熟悉 了 , 在 IO 端口 和 中 断 号 部 分 就 接触 过 它 。DMA 通道 注册 
表 与 此 非常 类 似 。 在 包含 了 头 文件 <asm/dma.h> 之 后 , 用 下 面 的 函数 可 以 获得 和 释放 对 
DMA 通道 的 所 有 权 : 

int request_dma{unsigned int channel, const char *name); 

void free_dma (unsigned int channel); 
channel 参数 是 0 到 7 的 整数 , 或 者 更 精确 地 说 , 是 一 个 小 于 MAX_DMA_CHANNELS 的 
正 整 数 。 在 PC 中 ，MAX_DMA_CHANNELS 定义 为 与 硬件 匹配 的 8。name 参数 是 标识 设 
备 的 字符 串 ， 指 定 的 名 字 出 现在 文件 /proc/dma 中 ， 用 户 程 序 可 以 读 取 该 文件 。 


request_dma 函数 返 加 0 表示 执行 成 功 , 返回 -EINVAL 或 者 -EBUSY 表 示 失 败 。 前 一 个 
错误 码 表示 所 请 求 的 通道 超出 了 范围 ,后 面 一 个 错误 码 表示 通道 正 为 另外 一 个 设备 所 占 





注 6: 这 种 电路 现在 是 主板 汞 片 组 的 一 部 分 ， 但 在 几 年 前 ， 它 们 是 两 个 独立 的 8237 芯片 。 

注 7: 最 初 的 PC 只 有 两 个 控制 器 ， 第 二 个 控制 器 出 现在 286 平台 中 。 但是， 第 二 个 控制 器 被 
连接 为 主 控制 器 , 这 是 因为 它 可 以 处 理 16 位 传输 , 而 第 一 个 控制 器 每 次 只 能 传输 八 位 ， 
因此 仅 用 于 向 后 兼容 。 
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建议 读者 像 对 待 IO 端口 和 中 断 信号 线 一 样 地 小 心 处 理 DMA 通道 ; 在 open 操作 时 请 求 
通道 , 比 在 模块 初始 化 函数 中 请 求 通道 更 好 一 些 . 延 迟 请 求 允 许 在 驱动 程序 间 共 享 信息 ; 
比如 声卡 和 类 似 的 IO 接口 如 果 不 在 同一 时 间 内 使 用 DMA 通道 时 ， 就 可 以 共享 同一 个 
DMA 通道 。 


这 里 还 建议 读者 在 请 求 中 断 信号 线 之 后 请 求 DMA 通道 ， 并 且 在 中 断 之 前 释放 通道 。 这 
是 在 请 求 两 种 资源 时 常用 的 请 求 顺序 ; 按照 这 个 顺序 可 以 避免 可 能 的 死 锁 。 请 注意 使 用 
DMA 的 每 个 设备 还 需要 一 根 IRQ 线 ,否则 它 将 无 法 通知 数据 已 经 传输 完毕 。 


在 典型 应 用 中 ，open 函数 的 代码 有 类 似 以 下 的 形式 ， 这 段 代 码 使 用 了 假想 的 dad 模块 。 
dad 模块 不 支持 共享 IRQ 信号 线 ， 它 使 用 了 一 个 快速 中 断 处 理 例 程 。 


int dad open {struct inode *inode, struct file *filp) 
{ 
struct dad device *my_device; 
td 
if ( (error = request_irq(my_device.irq, dad_interrupt, 
SA_INTERRUPT, "dad", NULL)) ) 
return error; /* 或 者 实现 阻塞 的 open 操作 */ 


if ( (error = request_dma{my_device.dma, "dad")) ) { 
free_irgq(my_device.irg, NUDLL); 
return error; /* 或 者 实现 阻塞 的 open 操作 */ 


} 


与 open 函数 相 匹 配 的 close 函数 的 实现 如 下 : 


void dad close (struct inode *inode, struct file *filp) 
{ 
struct dad_device *my_device; 


da 
free._dmalmy_device.dma); 
free_irq{my_device.irqgq, NULL); 
ee 

} 


下 面 是 一 个 安装 了 声卡 系统 的 /proc/dma 文件 : 


merlino% cat /proc/dma 
1: Sound Blaster8 
4: cascade 


请 注意 默认 的 声卡 驱动 程序 在 系统 启动 时 获得 了 DMA 通 道 , 并 且 不 会 释放 它 。 cascade 
入 口 是 一 个 占 位 符 ， 表示 通 道 4 对 驱动 程序 不 可 用 ， 其 原因 在 前 面 讲述 过 了 。 
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与 DMA 控制 器 通信 


注册 之 后 ， 驱 动 程序 的 主要 任务 包括 为 适当 的 操作 配置 DMA 控制 器 。 该 任务 不 是 可 有 
可 无 的 , 但 幸运 的 是 ， 内 核 导 出 了 驱动 程序 所 需要 的 所 有 函数 。 


当 read 或 者 wrire 国 数 被 调用 时 ， 或 者 准备 异步 传输 时 ， 驱 动 程序 都 要 对 DMA 控制 器 
进行 配置 。 根 据 驱 动 程序 和 其 实现 配置 的 策略 , 这 一 工作 可 以 在 调用 open 函数 时 , 或 者 
响应 ioct 命令 时 被 执行 。 这 里 的 代码 是 被 read 和 wrire 设备 方法 调用 的 典型 代码 。 


这 一 小 节 提 供 了 DMA 控制 器 内 部 的 概貌 ， 这 样 ， 读 者 就 能 理解 这 里 所 给 出 的 代码 。 如 
果 想 要 了 解 更 多 信息 ， 可 阅读 <asm/dma.h> 文件 以 及 描述 PC 体系 架构 的 硬件 手册 。 特 
别 是 在 这 里 不 处 理 与 16 位 数据 传输 相对 的 8 位 传输 问题 。 如 果 要 为 ISA 设备 板 卡 编写 
驱动 程序 ， 应 该 仔细 阅读 该 设备 的 硬件 手册 ， 以 查找 相关 信息 。 


DMA 通道 是 一 个 可 共享 的 资源 ， 如 果 多 于 一 个 的 处 理 器 要 同时 对 其 进行 编程 ， 则 会 产 
生 冲 突 。 因 此 有 一 个 叫 作 ama_spin_lock 的 自 旋 锁 保 护 控制 器 。 驱动 程序 不 能 直接 处 
理 该 自 旋 锁 ; 但 是 有 两 个 函数 能 够 对 它 进行 操作 : 


unsigned 1ong claim Gma_lock(); 
获得 DMA 自 洲 锁 。 访 函数 也 阻塞 本 地 处 理 器 上 的 中 断 , 因此 返回 值 是 描述 先前 中 
断 状 态 的 一 系列 标志 。 在 重新 开 中 断 时 ,返回 值 必 须 传递 给 下 面 的 函数 以 恢复 中 断 
void release_dma_lock(unsigned long flags); 


返回 DMA 自 旋 锁 并 恢复 先前 的 中 断 状态 。 


当 使 用 下 面 描述 的 函数 时 , 应 该 拥有 自 旋 锁 。 但 是 在 实际 的 VO 中 却 不 应 该 拥有 自 旋 锁 。 
当 拥 有 自 旋 锁 时 ， 驱 动 程序 不 能 处 于 休眠 状态 。 


必须 被 装 入 控制 器 的 信息 包含 三 个 部 分 : RAM 的 地 址 、 必 须 被 传输 的 原子 项 个 数 (以 字 
节 或 字 为 单位 ) 以 及 传输 的 方向 。 为 达到 这 个 目的 ，<asm/dma.h> 定义 了 下 面 的 函数 : 


void set_dma_mode (unsigned int channel, char mode); 
表明 是 从 设备 读 入 通道 (DMA_MODE_READ) 还 是 向 设备 写 入 数据 (DMA_MODE_ 
WRITE)。 还 有 第 三 个 模式 一 一 DMA_MODE_CASCADE， 它 用 来 释放 对 总 线 的 控 
制 。 级 联 是 将 第 一 控制 器 连接 到 第 二 控制 器 顶端 的 方法 ， 但 是 也 可 以 用 于 真正 的 
ISA 总 线 控 制 设备 。 在 这 里 不 讨论 总 线 控制 。 

void set_dma_addr (unsigned int channel, unsigned int addr); 
为 DMA 缓冲 区 分 配 地 址 。 该 函数 将 addr 的 最 低 24 位 存储 到 控制 器 中 。adqdr 参 
数 必须 是 总 线 地 址 (请 参看 本 章 前 面 的 “总 线 地 址 ”部 分 }。 
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void set_dma_count (unsigned int channel, unsigned int count); 
为 传输 的 字 节 量 赋值 。count 参数 也 可 以 表示 16 位 通道 的 字 节 数 、 此 时 字 节 数 必 
须 是 偶数 。 


除了 这 些 函 数 外 ， 当 处 理 DMA 设备 时 ， 还 有 许多 用 于 管理 设备 的 函数 : 


void disable_dma(unsignedq int channel)}; 
控制 器 内 的 DMA 通道 可 以 被 禁用 。 应 该 在 配置 控制 器 前 禁用 通道 , 以 防止 不 正确 
的 操作 ( 否则 由 于 控制 器 是 针对 8 位 数据 传输 编程 的 , 可 能 会 引起 冲突 , 因此 前 面 
所 介绍 的 函数 都 不 能 原子 地 执行 )。 

void enable dma (unsigned int channel); 
该 函数 告诉 控制 器 ，DMA 通道 中 包含 了 合法 的 数据 。 

int get_dma_residue (unsigned int channel); 
驱动 程序 有 时 需要 知道 DMA 传输 是 否 已 经 结束 。 该 函数 返回 还 未 传输 的 字 节 数 。 
如 果 传 输 成 功 , 返回 值 是 0, 当 控 制 器 正在 工作 时 , 返回 值 并 不 确定 (但 不 会 是 0)。 
如 果 使 用 两 个 8 位 输入 操作 来 获得 一 个 16 位 的 余 量 ， 则 返回 值 是 不 可 预测 的 。 

void clear dma_ ff{unsigned int channel) 
该 函数 清除 了 DMA 的 触发 器 (flip-flop)。 触 发 器 用 于 控制 对 16 位 寄存 器 的 访问 。 
我 们 可 以 通过 两 个 连续 的 8 位 操作 访问 该 寄存 器 , 而 触发 器 被 用 来 选择 低 字 节 ( 当 
其 清 零 时 ) 还 是 高 字 节 ( 当 其 被 置 位 )。 当 传输 完 8 位 后 ， 触 发 器 自动 反 转 ; 程序 
员 必 须 在 访问 DMA 寄存 器 前 清除 触发 器 ( 将 其 设置 为 可 知 状态 )。 


使 用 这 些 函 数 ， 驱 动 程序 可 以 实现 如 下 函数 ， 为 DMA 传输 做 准备 : 


int dad_ dma_prepare{lint channel, int mode, unsigned int buf, 
unsigned int count) 
{ 
unsigned long flags; 


flags = claim dma_ lock!(}; 
Gisable_dma(channel); 

clear dma_ff (channel); 

set_dma_mode (channel, mode}); 
set_dma_addr (channel, virt._to_bus(buf}); 
set_dma_count (channel, count); 
enable_dma {channel):; 

release dma_lock(flags); 


return 0; 
1 


接着 ， 下 面 的 代码 用 来 检查 是 否 成 功 完成 DMA: 
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int dad_ dma_isdone(int channel) 

{ 
int residue; 
unsigned long flags = claim dma_lock (}; 
residue = get_dma_residue {channel}; 
release_dma_lock (flags); 
return {residue = = 0); 

} 


剩 下 需要 做 的 唯一 事情 是 配置 设备 板 卡 。 这 个 与 设备 相关 的 任务 通常 包括 读 写 一些 IO 
端口 。 不 同 设备 实现 的 方法 差异 很 大 。 比 如 一 些 设 备 希望 程序 员 告 诉 硬 件 DMA 缓冲 区 
的 大 小 ,而 有 些 时 候 驱 动 程序 不 得 不 读 出 固化 在 设备 中 的 数据 为 了 完成 对 板 卡 的 配置 ， 
硬件 手册 是 程序 员 唯一 的 朋友 。 


快速 参考 


本 章 介绍 了 下 面 这 些 与 内 存 操作 相关 的 符号 。 


介绍 材料 


#include <linux/mm.h> 
#include <asm/page.h> 


在 这 些 头 文件 中 定义 了 大 部 分 与 内 存 管理 相关 的 函数 和 结构 ， 并 给 出 了 原型 。 


void *_ _va(lunsigned long physaddr); 
unsigned long _ _pa{lvoid *kaddr)}; 
在 内 核 逻 辑 地 址 和 物理 地 址 之 间 进 行 转换 的 宏 。 


PAGE_SIZE 

PAGE_SHIFT 
前 者 以 字 节 为 单位 给 出 在 特定 硬件 中 每 页 的 大 小 ,后 者 表示 为 获得 物理 地 址 , 页 帧 
号 需要 移动 的 位 数 。 

struct page 


在 系统 内 存 映射 中 ， 表 示 硬 件 页 的 结构 。 

struct page *virt_to_page(void *kaddr); 

void *page_address{(struct page *page): 

struct page *pfn_to pagelint pfn); 
负责 在 内 核 逻 辑 地 址 和 与 其 相关 的 内 存 映射 入 口 之 间 进 行 转换 的 宏 ,page_address 
只 能 对 已 经 显 式 映射 的 低 端 内 存 或 者 高 端 内 存 进行 操作 。pjfn_to_page 将 页 幢 号 转 
换 为 与 其 相关 的 page 结构 指针 。 
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unsigned long kmap (Struct page *page) ; 

void kunmap (Struct page *page); 
kmap 返回 映射 到 指定 页 的 内 核 虚拟 地 址 , 如 果 需 要 的 话 , 还 创建 映射 。 Kunmap 为 
指定 页 删除 映射 。 

#include <linux/highmem.h> 

#include <asm/kmap types .h> 

void *kmap_atomic(struct page *page, enum km type type); 

void kunmap_atomic (void *addr, enum km type type); 
kmap 的 高 性 能 版 本 ; 只 有 原子 代码 才能 拥有 映射 结果 。 对 驱动 程序 来 说 ,type 可 
以 是 KM_USER0、KM_USER1、KM_IRQ0 或 者 是 KM_IRQ1。 


struct vm area struct; 


描述 VMA 的 结构 。 


mmap 的 实现 
int remap_pfn_range (struct vm area_struct *vma, unsigned long virt_add， 
unsigned long pfn, unsigned long size, pgprot_t prot); 
int io_remap_page_range(struct vm area_struct *vma, unsigned long virt_add, 
unsigned long phys_add, unsigned long size, pgprot._t prot); 
mmap 的 核心 函数 ,它们 映射 了 物理 地 址 中 从 pfn 表 示 的 页 号 开始 的 size 个 字 节 ， 
到 虚拟 地 址 virt_adda 上 ,。 相关 虚拟 地 址 的 保护 位 在 Prot 中 指定 。 如 果 目 标 地 址 
是 在 UVO 地 址 空间 的 话 ， 使 用 io_remap_page_range 函数 。 


struct page *vmalloc_to_page(void *vmaddr}; 


将 从 vmalloc 入 数 返回 的 内 核 虚 拟 地 址 转化 为 相对 应 的 page 结构 指针 。 


直接 1/O 的 实现 


int get_user_pages (Struct task_struct *tsk, struct rm struct *mm, unsigned 
long start, int len, int write, int force, struct page **pages, struct 

vm_area_struct **vmas); 
该 函数 将 用 户 空间 缓冲 区 锁 进 内 存 , 并 返回 相应 的 page 结构 指针 。 调 用 者 必须 拥 


有 mm->mmap_sem。 


SetPageDirty(struct page *paSe) ; 


将 指定 内 存 页 标记 为 “已 经 改动 过 ”"， 并 在 释放 该 页 前 将 其 写 入 后 备 存储 器 的 宏 。 
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void page_cache_release(Sstruct page *pagel) ; 
从 页 缓存 中 释放 指定 的 页 。 
int is_sync_kiocb{(struct kiocb *iocb); 
如 果 指 定 的 IOCB 需要 同步 执行 ， 该 宏 返 回 非 零 值 。 
She aio_completel(struct kiocb *iocb, TR res, long res2) : 


表明 异步 IO 操作 完成 的 函数 。 


直接 内 存 访问 


#include <asm/io.h> 

unsigned long virt_to_bus(volatile void * address); 

void * bus_to virt(unsigned long address); 
用 来 在 内 核 , 虚拟 地 址 .总线 地 址 之 间 进 行 转换 的 老 版 本 函数 。 与 外 围 设备 通信 时 ， 
必须 使 用 总 线 地 址 。 


#include <linux/dma-mapping.h> 
用 来 定义 通用 DMA 函数 的 头 文件 。 
int dma_set_mask(struct device *dev, u64 mask); 
对 于 那些 不 能 在 全 部 32 位 寻 址 的 外 围 设备 来 说 ,该 函数 通知 内 核 可 寻 址 的 范围 ,如 
果 DMA 可 行 则 返回 非 零 值 。 
void *dma_alloc_coherent (struct device *dev, size_t size, dma_addr_t 
*bus_addr, int flag) 
void Gma_free_coherent {struct device *dev, size_t size, void *cpuaddr, 
dma handle_t bus_addr); 
为 缓冲 区 分 配 和 释放 一 致 性 DMA 映射 ， 该 缓冲 区 的 生命 周期 与 驱动 程序 相同 。 


#include <linux/dmapool.h> 
struct dma pool *dma_pool create(const char *name, struct device *dev, 
size_t size, size_t align, size_t allocation); 

void dma_pool destroy(struct dma_pool *pool); 

void *dma_ pool_alloc{struct dma_pool *pool, int mem flags, dma_addr_t 
*handle); 

void dma_pool_free(struct dma_pool *pool, void *vaddr, dma_addr_t handle); 
用 来 创建 、 销 毁 和 使 用 DMA 池 的 函数 ， 用 来 管理 小 型 的 DMA 区 域 。 
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enum dma_data_direction; 
DMA_TO_DEVICE 

DMA FROM_ DEVICE 
DMA_BIDIRECTIONAL 
DMA_NONE 


用 来 告诉 流 式 上 映射 函数 的 符号 ， 表 明 数 据 传输 的 方向 。 


dma_addr_ t dma_map_single(struct device *dev, void *tuffer，size 上 size, enum 
Gma_data_direction direction); 

void dma_unmap single(struct device *dev, dma addr t bus addr, size_t size, 
enum dma data_direction direction); 


创建 和 销毁 单个 流 式 DMA 映射 。 


void adma_sync_single_for_cpul(struct device *dev, dma handle t bus_addr, size 七 
size, enum dma_data_dqirection direction); 
void dma_sync_single_for_device(struct device *dev, dma_handle_t bus_addr, 
size_t size, enum dma_data_direction direction); 
同步 拥有 流 式 映 射 的 缓冲 区 。 在 使 用 流 式 映 射 时 , 如 果 处 理 器 要 访问 缓冲 区 , 则 必 
须 使 用 这 些 函 数 。 


#include <asm/scatterlist.h> 

struct scatterlist { /* oc. */ }7 

dma_addr t sg_dma address{struct scatterlist *sg); 

unsigned int sg_dma_len(struct scatterlist *sg); 
scatterlist 结 构 描述 了 包含 多 个 缓冲 区 的 0 操作 。 当 实现 了 分 散 / 诊 集 操作 时 ， 
宏 sg_dma_address 和 sg_dma_len 用 来 获得 总 线 地 址 和 缓冲 区 长 度 , 并 将 它们 传递 
给 设备 。 


Gma_map_sg(struct device *dev, struct scatterlist *list, int nents, 
enum dma_data direction direction); 
dma_unmap_sg (struct device *dev, struct scatterlist *list, int nents, enum 
dma_data_direction direction); 
void dma_sync_sg_for_cpul(struct device *dev, struct scatterlist *sg, int 
nents, enum dma_data_ direction direction)}; 
void dma_sync_sg for _ device(struct device *dev, struct scatterlist *sg, int 
nents, enum dma_data_direction direction); 
dma_map_sg 函数 映射 了 分 散 /聚集 操作 ，dma_xmmap_s8 函数 负责 解除 映射 。 当 
映射 处 于 活动 状态 而 又 必须 访问 缓冲 区 时 ， 需 要 使 用 dma_sync_sg_* 函数 进行 间 
步 。 
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/proc/dma 
包含 DMA 控制 器 中 被 分 配 通 道 信息 快照 的 文本 文件 。 其 中 不 会 显示 基于 PCI 的 
DMA 、 因 为 它们 独立 工作 ， 不 需要 在 DMA 控制 器 中 分 配 一 个 通道 。 

#include <asm/dma.h> 
定义 与 DMA 相关 的 函数 和 宏 的 头 文件 , 其 中 给 出 了 函数 原型 。 如 果 要 使 用 下 面 的 
符号 ， 必 须 包含 该 文件 。 

int request_dma {unsigned int channel, const char *name); 

void free_dma(unsigned int channel); 


访问 DMA 注册 表 。 在 使 用 ISA DMA 通道 前 必须 执行 注册 。 


unsigned long claim_dma_lock(); 

Void release_Gma_locklunsigned long flags); 
获得 和 释放 DMA 自 旋 锁 ， 在 调用 ISA DMA 函数 前 必须 拥有 自 旋 锁 。 它 们 也 能 禁 
止 和 重新 打开 本 地 处 理 器 的 中 断 。 


void set. dma_mode(unsigned int channel, char mode); 
void set_dma_addr (unsigned int channel, unsigned int addr); 
void set dma_count (unsigned int channel, unsigned int count); 


在 DMA 控制 器 内 对 DMA 信息 编程 。addr 是 总 线 地 址 。 


void disable dma (unsigned int channel); 

void enable_dma (unsigned int channel); 
在 配置 时 ，DMA 通道 必须 被 禁止 。 这 些 函 数 用 来 改变 DMA 通道 状态 。 

int get._dma residue (unsigned int channel); 
如 果 驱 动 程序 需要 知道 DMA 传输 的 进展 情况 ,可 以 调用 这 个 函数 , 它 将 返回 未 被 
传输 数据 的 数量 。 在 成 功 完 成 DMA 后 ,该 函数 返回 0; 当 数 据 正 在 被 传输 时 ， 返 
回 值 是 不 可 预测 的 。 

void clear dma_ff{unsigned int channel) 
DMA 控 制 器 使 用 触发 器 并 通过 两 个 8 位 操作 传输 一 个 16 位 的 值 。 在 把 数据 传递 给 
控制 器 前 ， 必 须 清除 触发 器 。 
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迄今 为 止 , 我 们 的 论述 只 局 限于 字符 设备 驱动 程序 ,然而 在 Linux 系统 中 还 有 另外 一 类 
驱动 程序 ， 现 在 是 该 把 目光 转向 这 类 设备 的 时 候 了 。 本 章 将 讨论 块 设备 驱动 程序 。 


-个 块 设备 驱动 程序 主要 通过 传输 固定 大 小 的 随机 数据 来 访问 设备 。Linux 内 核 视 块 设 
备 为 与 字符 设备 相 异 的 基本 设备 类 型 ， 因 此 块 驱动 程序 有 自己 完成 特定 任务 的 接口 。 


高 效 的 块 设备 驱动 程序 在 性 能 上 是 严格 要 求 的 , 并 不 仅仅 体现 在 用 户 应 用 程序 的 读 、 写 
操作 中 。 现代 操作 系统 使 用 虚拟 内 存 工作 , 把 不 需要 的 数据 转移 到 诸如 磁盘 等 其 他 存储 
介质 上 。 块 驱动 程序 是 在 核心 内 存 与 其 他 存储 介质 之 间 的 管道 , 因此 它们 可 以 认为 是 虚 
拟 内 存 子 系统 的 组 成 部 分 。 虽 然 不 需要 知道 页 结构 和 其 他 重要 的 内 存 概念 就 能 编写 出 块 
设备 驱动 程序 , 但 是 为 了 编写 出 高 性 能 的 驱动 程序 , 编码 人 员 还 是 需要 了 解 在 第 十 五 章 
讲述 的 内 容 。 


对 块 设备 分 层 的 设计 ,其 着 眼 点 是 性 能 .许多 字符 设备 可 以 在 远 低 于 其 最 快速 率 下 工作 ， 
因此 ， 对 系统 综合 性 能 的 影响 并 不 显著 。 但 如 果 这 种 问题 出 现在 块 IO 子 系统 中 ， 系 统 
就 不 能 正常 工作 了 。Linux 块 设备 驱动 程序 接口 使 得 块 设备 可 以 发 挥 其 最 大 的 功效 ,但 
是 其 复杂 程度 又 是 编程 者 必须 面 对 的 一 个 问题 。 所 幸 的 是 2.6 版 本 的 块 设备 接口 对 过 去 
版 本 的 内 核 做 了 很 大 修改 和 提高 。 


正如 读者 希望 的 一 样 , 本 章 提供 了 一 个 例子 驱动 程序 , 其 实现 了 基于 内 存 的 块 设备 驱动 
程序 .本 质 上 讲 , 这 是 一 个 ramdisk( 内 存盘 ) 驱 动 程序 .内 核 已 经 包含 了 更 高 级 的 ramdisk 
的 实现 , 但 是 例子 驱动 程序 (名 为 sbul!) 在 尽量 减少 相关 复杂 度 的 前 提 下 ,告诉 读者 如 
何 创建 一 个 块 设备 驱动 程序 。 


在 深入 细节 以 前 , 先 精 确定 义 一 些 术 语 。 一 个 数据 块 指 的 是 固定 大 小 的 数据 , 而 大 小 的 
值 由 内 核 确定 。 数 据 块 的 大 小 通常 是 4096 个 字 节 , 但 是 可 以 根据 体系 结构 和 所 使 用 的 文 
件 系统 进行 改变 。 与 数据 块 对 应 的 是 扇 区 ,， 它 是 由 底层 硬件 决定 大 小 的 一 个 块 。 内 核 所 
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处 理 的 设备 扁 区 大 小 是 512 字 节 。 如 果 用 户 的 设备 使 用 了 不 同 的 大 小 , 需要 对 内 核 进行 
修改 ， 以 避免 产生 硬件 所 不 能 处 理 的 IO 请 求 。 要 记 住 这 一 点 : 无 论 何 时 内 核 为 用 户 提 
供 了 一 个 遍 区 编号 ， 该 扁 区 的 大 小 就 是 512 字 节 。 如 果 要 使 用 不 同 的 硬件 扇 区 大 小 ,用 
户 必须 对 内 核 的 扇 区 数 做 相应 的 修改 。 在 sbull 驱动 程序 中 将 演示 这 一 过 程 。 


注册 


与 字符 设备 一 样 , 块 设备 必须 使 用 一 系列 的 注册 函数 , 使 内 核 知 道 设备 的 存在 。 概 念 虽 
然 十 分 相似 , 但 是 块 设备 的 注册 细节 是 截然 不 同 的 。 读者 需要 学 习 一 套 新 的 数据 结构 和 
设备 操作 。 


注册 块 设备 驱动 程序 
对 大 多 数 块 设备 驱动 程序 来 说 ， 第 一 步 是 向 内 核 注册 自己 。 执 行 该 任务 的 函数 是 
register_blkdev (在 <linux/fs.h> 中 声明 ): 


int register_blkdev(unsigned int major, const char *name}); 


参数 是 该 设备 使 用 的 主 设备 号 及 其 名 字 ( 内 核 在 /proc/devices 中 显示 的 名 字 )。 如 果 传 
递 的 主 设备 号 是 0, 内 核 将 分 派 一 个 新 的 主 设备 号 给 设备 , 并 将 该 设备 号 返回 给 调用 者 。 
如 果 调 用 register_blkdev 返回 负 值 ， 则 表示 出 现 了 一 个 错误 。 


与 其 对 应 的 注销 块 设备 驱动 程序 的 函数 是 : 


int unregister blkdev(unsigned int major, const char *name); 


这 里 , 参数 必须 与 传递 给 register_blkdev 的 参数 相 匹 配 , 否则 函数 将 返回 -EINVAL, 并 
且 不 做 任何 注销 工作 。 


在 内 核 2.6 中 ， 对 register_blkdev 的 调用 是 完全 可 选 的 。 函 数 register_blkdev 所 执行 的 
功能 随时 间 的 推移 而 越 来 越 少 ; 在 这 里 ,该 接口 所 做 的 事情 是 : 其 一 ， 如 果 需 要 的 话 分 
配 一 个 动态 的 主 设备 号 ; 其 二 ,在 /proc/devices 中 创建 一 个 人 口 项 。 在 未 来 的 内 核 中 ， 
可 能 会 取消 register_blkdev 函数 。 但 是 在 这 段 时 间 内 , 大 多 数 驱动 程序 依然 会 调用 该 函 
数 ， 因 为 这 是 个 传统 。 


注册 磁盘 

虽然 register_blkdev 能 获得 主 设备 号 , 但 是 它 并 不 能 让 系统 使 用 任何 磁盘 。 因此 为 了 管 
理 独 立 的 磁盘 , 必须 使 用 另外 一 个 单独 的 注册 接口 。 使 用 该 接口 需要 熟悉 一 系列 的 新 的 
数据 结构 ， 而 这 是 学 习 的 起 点 。 
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块 设备 操作 


字符 设备 使 用 file_operations 结 构 告诉 系统 对 它们 的 操作 接口 , 块 设 备 使 用 类 似 的 数 
据 结构 ; 在 <linux/fs.h> 中 声明 了 结构 block_device_operations。 下 而 的 内 容 就 是 对 
该 结构 中 的 各 个 成 员 的 简要 说 明 , 当 以 后 讲 到 sbul! 驱 动 程序 细节 的 时 候 , 还 要 对 它们 做 
更 详细 的 介绍 : 


int (*open) (struct inode *inode, struct file *filp); 

int (*release) (struct inode *inode, struct file *filp); 
与 字符 设备 中 对 应 函数 功能 作用 相同 , 当 设 备 被 打开 或 者 关闭 时 调用 它们 。 一 个 块 
设备 驱动 程序 可 能 用 旋转 盘 片 、 锁 住 仓 门 (对 可 移动 介质 ) 等 来 响应 open 调用。 如 
果 用 户 将 介质 放 入 设备 中 锁 住 ， 那 么 在 release 函数 中 当然 要 进行 解锁 。 


int (*ioctl} (struct inode *inode, struct file *filp, unsigned int cmd, 
unsigned long arg); 
实现 ioct! 系统 调用 的 函数 。 块 设备 层 会 首先 截取 大 量 的 标准 请 求 ， 因 此 大 多 数 块 
设备 的 ioct! 裔 数 都 十 分 短小 。 
int (*media_ changed) (struct gendisk *gd); 
内 核 调 用 该 函数 以 检查 用 户 是 否 更 换 了 驱动 器 内 的 介质 ,如果 用 户 更 换 了 , 那么 返 
回 一 非 零 值 . 很 明显 , 该 函数 只 适用 于 那些 支持 可 移动 介质 (并 且 为 驱动 程序 设置 
了 “介质 更 换 ” 标 志 位 ) 的 驱动 器 ; 在 其 他 情况 下 ， 该 函数 被 忽略 。 
内 核 使 用 gendi sk 结构 表示 一 个 独立 的 磁盘 ,在 下 一 节 中 将 要 对 该 结构 进行 讲解 。 
int (*revalidate_disk) {struct gendisk *gd); 
当 介质 被 更 换 时 , 调用 revalidate_disk 函 数 做 出 响应 ; 它 告诉 驱动 程序 完成 必要 的 
工作 ， 以 便 使 用 新 的 介质 。 该 函数 返回 一 个 int 型 值 ， 但 是 该 值 为 内 核 所 忽略 。 


struct module *owner:; 


一 个 指向 拥有 该 结构 的 模块 指针 ， 通 常 它 都 被 初始 化 为 THIS_MODULE; 


在 这 个 列表 中 , 细心 的 读者 可 能 会 发 现 一 个 有 趣 的 现象 : 没有 函数 负责 读 和 写 数 据 。 在 
块 设备 的 IO 子 系统 中 ， 这 些 操作 是 由 request 函数 处 理 的 。request 函数 能 完成 众多 操 
作 , 在 本 章 后 面 的 部 分 将 对 该 函数 进行 讨论 。 在 讨论 请 求 服务 前 ,必须 完成 对 磁盘 注册 
的 讨论 。 


gendisk 结构 

内 核 使 用 gendisk 结构 (在 <linux/genhd.h> 中 声明 ) 来 表示 一 个 独立 的 磁盘 设备 。 实 
际 上 , 内 核 还 使 用 gendisk 结 构 表示 分 区 , 但 是 驱动 程序 的 作者 并 不 需要 了 解 这 些 。 在 
gendisk 结构 中 的 许多 成 员 必须 由 驱动 程序 进行 初始 化 : 
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int major; 

inte first minors 

int minors; 
磁盘 使 用 这 些 成 员 描述 设备 号 ,一 个 驱动 器 至 少 使 用 一 个 次 设备 号 。 如果 驱动 器 是 
可 被 分 区 的 (大 多 数 情况 下 )， 用 户 将 要 为 每 个 可 能 的 分 区 都 分 配 一 个 次 设备 号 。 
minors 成 员 常 取 16， 它 使 得 一 个 “完整 的 磁盘 ”可 以 包含 15 个 分 区 。 但 是 ， 某 
些 磁盘 驱动 程序 设置 每 个 设备 可 使 用 64 个 次 设备 号 。 

char disk_ name[32]; 
设置 磁盘 设备 名 字 的 成 员 。 该 名 字 将 显示 在 /proc/partitions 和 sysfs 中 。 

struct block_device operations *fops; 
设置 前 面 表述 的 各 种 设备 操作 ; 

struct request_queue *queue; 
内 核 使 用 该 结构 为 设备 管理 1O 请 求 ; 在 “请 求 过 程 ”一 节 中 将 对 其 进行 论述 。 

int flags; 
用 来 描述 驱动 器 状态 的 标志 (很 少 使 用 )。 如 果 用 户 设 备 包含 了 可 移动 介质 ， 其 将 
被 设置 为 GENHD_FL_REMOVABLE。CD-ROM 设备 被 设置 为 GENHD_FL_CD。 如 
果 出 于 某 些 原因 ， 不 希望 在 /proc/parritions 中 显示 分 区 信息 ， 则 可 将 该 标志 设 为 
GENHD_FL_SUPPRESS_PARTITION_INEFO。 

sector_t Capacity; 
以 512 字 节 为 一 个 扁 区 时 , 该 驱动 器 可 包含 的 扁 区 数 。sector_t 可 以 是 64 位 宽 。 
驱动 程序 不 能 直接 设置 该 成 员 ， 而 要 将 扇 区 数 传递 给 set_capacity。 


void *private_data; 


块 设备 驱动 程序 可 能 使 用 该 成 员 保存 指向 其 内 部 数据 的 指针 。 


内 核 为 使 用 gendi sk 结构 提供 了 一 些 函 数 , 下 面 介绍 这 些 函 数 , 然后 将 看 到 sbul! 如 何 
使 用 它们 ， 从 而 让 它 的 磁盘 设备 为 系统 服务 。 | 


gendisk 结构 是 一 个 动态 分 配 的 结构 ， 它 需要 一 些 内 核 的 特殊 处 理 来 进行 初始 化 ， 驱 
动 程序 不 能 自己 动态 分 配 该 结构 ， 而 是 必须 调用 : 


struct gendisk *alloc_disk(inct minors); 


参数 minors 是 该 磁盘 使 用 的 次 设备 号 的 数目 。 请 注意 , 为 了 能 正常 工作 , 此 后 用 户 就 
不 能 改变 minors 成 员 。 


当 不 再 需要 一 个 磁盘 时 ， 调 用 下 面 的 函数 卸载 磁盘 : 
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void del_gendisk(struct gendisk *gd); 


gendisk 是 一 个 引用 计数 结构 ( 它 包含 一 个 kobject 对 象 )。get_disk 和 pur_disk 了 东 数 负 
责 处 理 引 用 计数 , 但 是 驱动 程序 不 能 直接 使 用 这 两 个 函数 ,通常 对 del_gendisk 的 调用 会 
删除 gendisk 中 的 最 终 计数 , 但 是 没有 机 制 能 保证 其 肯定 发 生 。 因 此 当 调 用 del_gendisk 
后 ， 该 结构 可 能 继续 存在 (而且 内 核 可 能 会 调用 我 们 提供 的 各 种 方法 )。 当 没有 用 户 继 
续 使 用 时 ( 当 最 终 被 释放 ， 或 者 在 模块 的 cleanup 函数 中 ) ， 将 真正 删除 该 结构 ， 此 后 ， 
我 们 可 以 肯定 不 会 再 得 到 任何 该 设备 的 信息 了 。 


分 配 一 个 gendi sk 结构 并 不 能 使 磁盘 对 系统 可 用 。 为 达到 这 个 目的 ， 必 须 初 始 化 结构 
并 调用 add_disk: 


void add disk{struct gendisk *gd); 


请 记 住 这 个 关键 点 ， 一 旦 调用 了 add_disk， 磁 盘 设 备 将 被 “激活 ”"， 并 随时 会 调用 它 提 
供 的 方法 ,实际 上 第 一 次 对 这 些 方法 的 调用 可 能 在 add_disk 返 回 前 就 发 生 了 ,这 是 因为 ， 
内 核 可 能 会 读 取 前 面 几 个 块 的 数据 以 获得 分 区 表 。 因 此 在 驱动 程序 完全 被 初始 化 并 且 能 
够 响应 对 磁盘 的 请 求 前 ， 请 不 要 调用 add_disk。 


sbull 中 的 初始 化 


现在 是 仔细 研究 例子 程序 的 时 候 了 。sbul! 驱 动 程序 (该 示例 与 其 他 例子 的 源 代码 可 以 在 
O'Reilly 的 FTP 站 点 上 获得 ) 实现 了 一 个 内 存 虚 拟 磁 盘 驱 动 器 。 对 于 每 个 驱动 器 来 说 ， 
sbull 分 配 (为 简化 起 见 , 使 用 了 vmalloc) 了 一 个 内 存 数 组 ， 然 后 通过 块 设备 操作 使 访 
数组 可 用 。 我 们 可 以 通过 对 这 个 虚拟 设备 进行 分 区 , 在 其 上 建立 文件 系统 , 并 把 它 挂 装 
到 文件 系统 树 上 来 测试 sbuli 驱动 程序 。 


与 其 他 例子 驱动 程序 相同 , sbul! 允 许 在 编译 或 者 加 载 的 时 候 获 得 主 设备 号 。 如 果 没 有 指 
定 主 设备 号 , 则 将 动态 分 配 一 个 ,由 于 动态 分 配 需 要 调用 register_blkdev 函 数 , 所 以 sbull 
的 代码 如 下 : 


sbull major = register blkdev(sbull_major, "sbull*); 

if {sbull_major <= 0) { 
printk (KERN_WARNING "sbull:; unable to get major number\n"); 
return -EBUSY; 

} 


与 本 书 中 的 其 他 虚 氢 设备 相同 ，sbull 设备 也 用 内 部 的 一 个 数据 结构 来 描述 : 


struct sbull_dev { 
int size; /* 以 扇 区 为 单位 .设备 的 大 小 */ 
u8 *data; /* 数据 数组 */ 
short users; /* 用 户 数目 */ 
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short media_change; /* 介质 改变 标志 */ 
spinlock_t lock; /1* 用 于 互 斥 */ 
struct request_queue *queue; /* 设备 请 求 队列 */ 
struct gendisk *gd; /* gendisk 结构 */ 
struct timer_list timer; /* 用 来 模拟 介质 改变 */ 


} 


需要 通过 几 个 步骤 来 初始 化 该 结构 , 使 系统 能 操控 相应 的 设备 。 现 在 从 基本 的 初始 化 和 
分 配 底层 内 存 开始 讲解: 
memset (dev, 0, sizeof (Struct sbull_dev)); 


dev->size = nsectors*hardsect_size; 
dev->data = vmalloc (dev->size); 


if {dev->data = = NULL) { 
printk (KERN_NOTICE "vmalloc failure.\n"); 
return; 


} 
spin_lock_init(&dev->lock); 


在 进行 下 一 步 分 配 请 求 队列 前 , 对 自 旋 锁 进行 分 配 和 初始 化 非常 重要 。 在 进行 请 求 处 理 
时 ， 再 仔细 分 析 这 个 过 程 。 现 在 为 了 满足 这 个 要 求 所 必须 的 步骤 是 ; 


dev->queue = blk_init queue{(sbull request, &dev->lock); 


这 里 的 sbull_request 是 请 求 函 数 , 它 负 责 执行 块 设备 的 读 、 写 请 求 。 当 分 配 了 一 个 请 求 
队列 时 , 必须 提供 一 个 自 旋 锁 用 以 控制 对 队列 的 访问 。 该 锁 由 驱动 程序 而 不 是 内 核 提 供 
的 原因 是 : 请 求 队列 和 其 他 驱动 程序 的 数据 结构 常常 会 落 到 同一 个 临界 区 内 , 它们 将 要 
被 同时 访问 。 和 其 他 任意 一 个 分 配 内 存 的 函数 一 样 ，blk_init_queue 可 能 会 失败 ， 因 此 
在 进行 下 一 步 之 前 ， 必 须 检 查 其 返回 值 。 


一 旦 在 适当 的 位 置 拥有 了 设备 内 存 和 请 求 队列 ， 就 可 以 分 配 、 初 始 化 及 安装 相应 的 
gendisk 结构 了 。 用 下 面 的 代码 执行 该 任务 : 


dev->gd = alloc_disk(SBULL_MINORS) ; 
if (! dev->gd) { 
printk (KERN_NOTICE "alloc disk failure\n"); 
goto out_vfree; 
} 
dev->gd->major = sbull_major; 
dev->gd->first_ minor = which*SBULL MINORS; 
dev->gd->fops = &sbull_ops; 
dev->gd->queue = dev->queue; 
dev->gd->private_data = dev; 
snprintf (dev->gd->disk_name, 32, "sbull%c", Which + 'a'); 
set_capacity (dev->gd, nsectors* (hardsect_size/KERNEL. SECTOR_SIZE)); 
add_disk (dev->gd); 


这 里 ，SBULL_MINORS 是 每 个 sbull 设 备 所 支持 的 次 设备 号 的 数量 。 当 为 每 一 个 设备 设 
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置 它 的 次 设备 写 时, 都 必须 考虑 到 那些 已 经 分 配给 设备 的 其 他 次 设备 号 。 被 设置 的 设备 
名 第 一 个 是 sbulia， 第 二 个 是 sbulib。 用 户 空 间 可 以 添加 分 区 数 ， 这 样 在 第 二 个 设备 上 
的 第 三 个 分 区 可 能 是 /dev/sbullb3。 


最 后 调用 add_disk 结 束 设置 过 程 。 由 于 在 add_disk 返 回 前 , 有 可 能 会 调用 其 他 的 一 些 磁 
盘 操 作 函 数 ， 因 此 对 add_disk 的 调用 一 定 要 放 在 初始 化 设备 的 最 后 一 步 。 


对 扇 区 大 小 的 说 明 

正如 前 面 所 提 到 的 ， 内 核 认为 每 个 磁盘 都 是 由 512 字 节 大 小 的 遍 区 所 组 成 的 线形 数组 。 
但 并 不 是 所 有 硬件 都 使 用 这 个 扇 区 大 小 的 .让 一 个 具有 不 同 扁 区 大 小 的 设备 运行 起 来 并 
不 是 特别 困难 , 只 是 仔细 关心 许多 细节 。sbull 设 备 输出 了 一 个 hardsect_size 参 数 ， 
使 用 该 参数 可 以 改变 “硬件 ”设备 遍 区 的 大 小 ; 参看 代码 的 实现 , 读者 就 能 知道 如 何在 
自己 的 设备 中 加 入 该 种 支持 。 


所 有 操作 的 第 一 步 就 是 通知 内 核 设备 所 支持 的 扁 区 大 小 ,硬件 岛 区 大 小 作为 一 个 参数 放 
在 请 求 队列 中 ,而 不 是 放 在 gendi sk 结构 中 。 当 分 配 队 列 之 后 ， 立 刻 调 用 blk_queue_ 
hardsect size 设置 扇 区 大 小 : 


blik_queue_hardsect_size(dev->queue, hardsect_ size); 


当 进 行 完 上 述 调用 后 ,内 核 就 对 我 们 的 设备 使 用 设 定 的 硬件 扇 区 大 小 。 所 有 的 IO 请 求 
都 将 定位 在 硬件 岛 区 的 开始 位 置 , 并 且 每 个 请 求 的 大 小 都 将 是 扁 区 大 小 的 整数 倍 。 必 须 
记 住 ,内核 总 是 认为 扁 区 大 小 是 512 字 节 ,， 因 此 必须 将 所 有 的 扇 区 数 进行 转换 。 比 如 当 
sbull 在 自己 的 gendisk 结构 中 设置 硬件 容量 时 ， 调 用 如 下 代码 : 


set_capacity (dev->gd, nsectors* (hardsect_size/KERNEL_SECTOR_SI2ZE) ) 


KERNEL_SECTOR_SIZE 是 本 地 定义 的 一 个 常量 , 使 用 该 常量 进行 内 核 5312 字 节 扇 区 到 
实际 使 用 扇 区 大 小 的 转换 。 我 们 会 在 sbul! 的 请 求 处 理 过 程 看 到 很 多 这 种 类 型 的 计算 。 


块 设备 操作 


在 前 面 的 部 分 已 经 对 block_device_operations 结构 进行 了 简要 的 介绍 。 在 进入 
请 求 处 理 部 分 之 前 ， 我 们 要 花 一 点 时 间 仔 细 研 究 这 些 操作 。 在 本 节 的 最 后 ， 再 来 讨论 
sbul! 驱 动 程序 的 一 个 新 功能 : 它 把 自己 伪装 成 一 个 可 移动 的 设备 。 无 论 何 时 当 最 后 一 个 
用 户 关闭 了 设备 , 都 要 设置 一 个 30 秒 的 定时 器 ; 如 果 在 这 个 时 段 内 设备 没有 被 打开 , 设 
备 中 的 所 有 内 容 将 被 清除 , 内 核 将 被 告知 设备 介质 已 经 被 改变 了 。30 秒 的 延迟 给 用 户 提 
供 了 一 个 机 会 ， 比 如 ， 在 设备 上 创建 文件 系统 之 后 再 挂 装 sbul! 设备 。 
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open 和 release 函数 


为 了 模拟 移动 介质 , spal 必 须知 道 最 后 一 个 用 户 何 时 关闭 了 设备 。 驱动 程序 维护 了 一 个 
用 户 计 数 。open 和 close 国 数 的 一 个 任务 就 是 更 新 用 户 计数 。 


open 函数 与 字符 设备 中 的 open 国 数 很 类 似 ; 它 把 相关 的 inode 和 file 结 构 作 为 参数 。 
当 一 个 inode 指 向 一 个 块 设备 时 ,i_bdev->bd_qdisk 成 员 包 含 了 指向 相应 gendisk 结 构 
的 指针 ; 该 指针 可 用 于 获得 驱动 程序 内 部 的 数据 结构 。 实 际 上 ，sbull 的 open 函数 是 这 
么 做 的 : 


static int sbull openl(struct inode *inode, struct file *filp) 
{ 
struct sbull dev *dev = inode->i_ bdev->bd disk->private_data; 


del_ timer_sync(&kdev->timer}); 
filp->private_data = dev; 
spin_lock (&dev->lock)}; 
if {! dev->users) 
check_disk_change{inode->i_bdev)}); 
dev->users++; 
spin_unlock (&dev->lock); 
return 0; 
} 


当 sbull_open 拥 有 自己 的 设备 结构 指针 后 ,此 时 如 果 有 任何 处 于 活动 状态 的 “介质 移 除 ” 
定时 器 , 它 将 调用 del_timer_sync 删除 “介质 移 除 ”定时 器 。 请 注意 在 定时 器 被 删除 前 ， 
没有 锁定 设备 的 自 旋 锁 ; 如 果 锁 定 的 话 , 一 旦 在 删除 定时 器 前 执行 了 定时 器 函数 , 则 会 
造成 死 锁 。 锁 定 设备 后 ， 调 用 内 核 函数 check_disk_change 检查 介质 是 否 改变 。 可 能 有 
的 读者 会 认为 内 核 应 该 自己 调用 该 函数 ,但 是 标准 的 模式 是 由 驱动 程序 在 cpen 的 时 候 处 
理 它 。 


最 后 一 步 是 增加 用 户 计数 并 返回 。 
与 此 相反 ，release 函数 的 功能 是 ; 减少 用 户 计数 并 启动 “介质 移 除 ”定时 器 : 


static int sbull_releaselstruct inode *inode, struct file *filp) 
. 
struct sbull dev *dev = inode->i_bdev->bd_disk->private_data; 


spin_lock(&kdev->lock); 
dev->users--}; 


if (!'dev->users) { 
dev->timer .expires = jiffies + INVALIDATE_ DELAY; 
add timer (&dev->timer); 

} 

spin_unlock(&dev->lock)，; 
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return 0; 
} 


对 于 那些 操作 实际 硬件 设备 的 驱动 程序 ，open 和 release 函数 可 以 设置 驱动 程序 和 硬件 
的 状态 。 这 些 操 作 包括 使 磁盘 开始 或 者 停止 旋转 ， 锁 住 可 移动 介质 的 仓 门 ， 以 及 分 配 
DMA 缓存 等 等 。 


读者 可 能 会 问 : 到 底 是 谁 真正 打开 了 块 设备 ”有 一 些 操作 能 够 让 块 设备 在 用 户 空间 内 被 
直接 打开 ,这 些 操作 包括 给 磁盘 分 区 , 或 者 在 分 区 上 创建 文件 系统 , 或 者 运行 文件 系统 
检查 程序 。 当 挂 装 一 个 分 区 时 , 块 设备 蝶 动 程序 也 会 调用 open 函数 。 此 时 没有 用 户 空间 
进程 拥有 设备 的 文件 描述 符 , 而 打开 的 文件 为 内 核 自己 所 保持 。 一 个 块 设备 驱动 程序 无 
法 区 分 挂 装 操作 (在 内 核 空间 内 打开 设备 ) 与 诸如 mkfs 这 样 的 应 用 程序 (在 用 户 空间 中 
打开 设备 ) 调用 之 间 的 区 别 。 


对 可 移动 介质 的 支持 
block_device_operations 结 构 包含 了 两 个 函数 用 以 支持 移动 介质 ,如 果 读 者 是 为 非 移 
动 设备 编写 驱动 程序 ， 则 可 以 忽略 这 两 个 函数 。 这 两 个 函数 的 实现 是 相当 直接 的 。 


(从 check_disk_change 函数 中 ) 调用 media_changed 函数 以 检查 介质 是 否 被 改变 ; 如 果 
被 改变 则 该 函数 将 返回 非 零 值 。 sbul! 中 的 实现 很 简单 : 如 果 介 质 移 除 定时 器 到 期 , 将 设 
置 一 个 标志 位 ，sbul! 仅仅 查询 该 标志 位 : 

int sbull media_changed(struct gendisk *gd) 


{ 
struct sbull_dev *dev = gd->private. data; 


return dev->media_change; 


} 


在 介质 改变 后 将 调用 revalideate 函数 ; 为 了 让 驱动 程序 能 操作 新 的 介质 , 该 函数 要 完成 
所 有 必需 的 工作 。 调 用 revalidate 后 ,内 核 将 试 着 重新 读 取 设 备 的 分 区 表 。 在 sbull 的 实 
现 中 只 是 简单 地 重新 设置 了 media_change 标 志 位 , 并 清除 了 设备 内 存 空间 以 模拟 插 
人 一 张 空白 磁盘 。 


int sbull_revalidatel(lstruct gendisk *gd) 
{ 
struct sbull dev *dev = gd->private._data; 


if (dev->media_change) { 
dev->media_change = 0; 
memset (dev->data, 0, dev~>size); 
. 


return 0; 
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ioctl 函数 


块 设备 驱动 程序 提供 了 iocti 函 数 执 行 设备 的 控制 功能 ,高 层 的 块 设备 子 系统 在 驱动 程序 
获得 ioct! 命 令 前 , 已 经 截取 了 大 量 的 命令 (请 参看 内 核 代码 drivers/block/ioctl.c 对 该 过 
程 进行 全 面 了 解 )。 实 际 上 在 一 个 现代 驱动 程序 中 ,许多 iocti 命令 根本 就 不 用 实现 。 


sbull 的 ioctl 函数 只 处 理 一 个 命令 一 一 对 设备 物理 信息 的 查询 请 求 : 


int sbull_ioctl (struct inode *inode, struct file *filp, 
unsigned int cmd, unsigned long arg) 
{ 
long size; 
struct hd_geometry geo: 
struct sbull dev *dev = filp->private.data; 


switch{cmd} { 
case HDIO_GETGEO : 
/* 
* 获得 物理 信息 : 由 于 是 虚拟 设备 ， 因 此 不 得 不 提供 ~- 些 虚拟 的 信息 。 
* 因此 这 里 声明 有 16 个 扇 区 ，、4 个 磁头 ， 并 且 计 算 相 应 的 柱 面 数 。 
* 这 里 、 我 们 设置 数据 开始 的 位 置 在 第 四 记 区 。 
i 
size = dev->size* (hardsect_size/KERNEL SECTOR_SIZE); 
geo.cylinders = (size & ~0x3f) >> 6€; 
geo.heads = 4; 
geo.sectors = 16; 
geo.start = 4; 
if (copy_to_user{({void __user *) arg, &geo, sizeof (geo))) 
return -EFAULT,; 
return 0; 
j 


return -ENOTTY; /* 未 知 命 令 */ 
} 
由 于 例子 程序 的 设备 是 一 个 纯粹 的 虚拟 设备 ,并且 没 有 磁道 和 柱 面 , 因此 提供 设备 的 物 
理 参数 信息 显得 很 奇怪 。 多 年 来 大 多 数 实际 的 块 设备 硬件 都 是 用 非常 复杂 的 数据 结构 来 
描述 的 。 内 核对 块 设备 的 物理 信息 并 不 感 兴趣 ， 它 只 把 设备 看 成 是 线性 的 扁 区 数组 。 但 
是 一 些 用 户 空间 的 应 用 程序 依然 需要 查询 磁盘 的 物理 信息 .特别 是 fdisk 工 具 , 它 负责 根 
据 柱 面 信息 编辑 分 区 表 ， 如 果 这 些 信 息 获得 不 了 ， 它 将 不 能 正常 工作 。 


我 们 希望 使 用 那些 古老 且 简 单 的 工具 就 能 对 sbull 设备 进行 分 区 ， 因 此 ，iocti 函数 提供 
了 可 靠 的 虚拟 物理 参数 与 设备 相 匹 配 。 大 多 数 磁 盘 驱 动 程序 所 做 的 工作 与 此 类 似 。 请 注 
意 ， 如 果 需 要 的 话 ， 扁 区 数目 要 与 内 核 使 用 的 512 字 节 约定 相 匹 配 。 
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请 求 处 理 
每 个 块 设 备 驱 动 程序 的 核心 是 它 的 请 求 函数 。 实 际 的 工作 ,至少 如 设备 的 启动 ,都 是 在 
这 个 函数 里 完成 的 。 因 此 我 们 将 花 很 长 的 篇 幅 讨论 块 设备 驱动 程序 中 的 请 求 处 理 过 程 。 


磁盘 驱动 程序 的 性 能 , 是 整个 操作 系统 性 能 的 重要 组 成 部 分 。 因此 内 核 的 块 设备 子 系统 
在 编写 的 时 候 就 非常 注意 性 能 方面 的 问题 , 除了 从 所 控制 的 设备 上 获得 信息 以 外 , 块 设 
备 子 系统 为 驱动 程序 完成 了 所 有 可 能 的 工作 。 这 是 非常 有 益 的 ， 因 为 它 使 得 快速 MO 成 
为 可 能 。 从 另外 一 个 角度 讲 , 块 设备 子 系统 不 必 关 心 驱 动 程序 API 的 大 量 复杂 性 。 编写 
一 个 非常 简单 的 request 函数 (很 快 读者 将 要 看 到 ) 是 可 行 的 ， 但 是 如 果 驱 动 程序 要 在 
很 高 的 层次 上 控制 非常 复杂 的 硬件 ， 那 么 它 将 不 再 简单 。 


request 函数 介绍 
块 设备 驱动 程序 的 request 函数 有 以 下 原型 : 


void request {request_queue_t *queue) ; 


当 内 核 需 要 驱动 程序 处 理 读 取 、 写 入 以 及 其 他 对 设备 的 操作 时 ,就 会 调用 该 函数 。 在 其 
返回 前 ,request 函数 不 必 完 成 所 有 在 队列 中 的 请 求 ; 事实 上 ,对 大 多 数 真实 设备 而 言 ， 
它 可 能 没有 完成 任何 请 求 。 然而 它 必 须 启动 对 请 求 的 响应 , 并 且 保 证 所 有 的 请 求 最 终 被 
驱动 程序 所 处 理 。 


每 个 设备 都 有 一 个 请 求 队列 。 这 是 因为 对 磁盘 数据 实际 的 传人 和 传 出 发 生 的 时 间 , 与 内 
核 请 求 的 时 间 相 差 很 大 , 因此 内 核 需要 有 一 定 的 灵活 性 , 以 安排 在 适当 时 刻 (比如 把 影 
响 相 邻 磁盘 扇 区 的 请 求 分 成 一 组 ) 进行 传输 。 还 有 请 记 住 ， 当 请 求 队列 生成 的 时 候 ， 
request 函数 就 与 该 队列 绑 定 在 一 起 。 现 在 回 过 头 来 看 看 sbull 是 如 何 处 理 它 的 队列 的 : 


dev->queue = blk_init_queue (sbul1_request，&qev->1lock) ; 


当 创建 队列 时 ,request 函数 绑 定 了 它 , 并 且 提 供 了 一 个 自 旋 锁 做 为 队列 创建 过 程 的 一 部 
分 。 当 调用 reqyuest 函数 时 ， 该 锁 是 由 内 核 控制 的 。 因 此 request 函数 是 一 个 原子 上 下 文 
中 运行 的 ; 它 必须 遵从 在 第 五 章 所 讲 的 原子 操作 代码 的 一 般 规 则 。 


当 request 函数 拥有 自 旋 锁 时 ， 该 锁 防 止 内 核 为 设备 安排 其 他 请 求 。 在 一 些 情况 下 ， 可 
能 需要 当 request 运行 的 时 候 解 锁 。 如 果 要 这 样 做 ， 当 锁 打 开 的 时 候 ， 必 须 保 证 禁止 对 
请 求 队列 ， 或 者 是 其 他 被 该 锁 保护 的 数据 结构 的 访问 。 在 request 函数 返回 前 ， 必 须 重 
新 获得 该 锁 。 


最 后 ， 对 request 函数 的 调用 (通常 ) 是 与 用 户 空间 进程 中 的 动作 完全 异步 的 。 我 们 不 
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能 假设 内 核 正 运行 在 初始 化 当前 请 求 进程 的 上 下 文中 。 我 们 也 无 法 知道 请 求 所 提供 的 
IO 缓存 是 在 内 核 空间 中 还 是 在 用 户 空间 中 。 因 此 直接 对 用 户 空间 的 任何 类 型 的 访问 都 
会 导致 错误 。 正 如 读者 看 到 的 ,驱动 程序 所 需要 知道 的 任何 关于 请 求 的 信息 , 都 包含 在 
通过 请 求 队列 传递 给 我 们 的 结构 中 。 


一 个 简单 的 request 函数 


sbul! 例子 驱动 程序 为 请 求 处 理 提供 了 许多 不 同 的 方法 。 在 默认 的 情况 下 ，sbul! 使 用 名 
为 sbull_request 的 函数 ， 它 可 能 是 一 个 最 简单 的 request 函数 。 下 面 是 它 的 代码 : 
static void sbull_request (request_queue t *q) 


{ 
struct request *req; 


while {(req = elv_ next_request(q)} != NULL) { 

struct sbull dev *dev = req->rq Gisk->private_data; 

if (! blk fs request{req)) { 
printk (KERN_NOTICE "Skip non-fs request\n"); 
end_request (req, 0); 
continue; 

} 

sbull_transfer (dev, red->sector, req->current nr _sectors, 

req->buffer, rq data_dirl(req)); 
end_request (req, 1); 


} 


该 函数 使 用 了 request 结构 。 在 以 后 的 部 分 将 仔细 讲解 request 结构 .现在 读者 只 要 
认为 它 代表 了 一 个 块 设备 的 LO 执行 请 求 就 可 以 了 。 


内 核 提 供 了 函数 ely_next_request 用 来 获得 队列 中 第 一 个 未 完成 的 请 求 ， 当 没有 请 求 需 
要 处 理 时 , 该 函数 返回 NULL。 请 注意 elv_next_request 并 不 从 队列 中 删除 请 求 。 如 果 不 
加 以 干涉 而 两 次 调用 该 函数 ， 则 两 次 都 返回 相同 的 request 结构 。 在 这 个 简单 的 操作 
中 ， 只 有 当 请 求 完成 后 ， 它 们 才 离 开 队 列 。 


一 个 块 请 求 队列 可 以 包含 那些 实际 并 不 向 磁盘 读 出 写 和 人 数据 的 请 求 ,这 些 请 求 包括 生产 
商 信息 , 底层 诊断 操作 , 或 者 是 与 特殊 设备 模式 相关 的 指令 ,比如 对 可 记录 介质 的 写 模 
式 的 设 定 。 大 多 数 块 设备 不 知道 如 何 处 理 这 些 请 求 , 只 是 让 这 些 请 求 失败 而 已 ; sbul! 也 
是 按照 这 种 方式 运行 的 .block_fs_request 调 用 告诉 用 户 访 请 求 是 否 是 一 个 文件 系统 请 求 
一 一 移动 块 数据 的 请 求 。 如 果 一 个 请 求 不 是 文件 系统 请 求 , 则 将 其 传递 给 end_request: 


void end_request (struct request *req, int Succeeded) : 
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当 处 理 非 文 件 系 统 请 求 时 , 传递 0 表示 不 能 成 功 地 完成 该 请 求 。 否则 调用 sbull_transfer 
对 数据 进行 实际 上 的 移动 ， 该 函数 使 用 了 request 结构 中 的 诸多 成 员 : 


Sector 七 sector; 
在 设备 上 开始 扇 区 的 索引 号 .请 记 住 这 个 扁 区 号 与 所 有 在 内 核 与 驱动 程序 间 传 递 的 
类 似 序号 一 样 , 指 的 是 512 字 节 的 遍 区 。 如 果 硬 件 使 用 不 同 的 扇 区 大 小 ,需要 对 其 
按 比 例 缩放 。 比 如 硬件 使 用 的 2048 字 节 的 扇 区 ,在 把 其 放 入 请 求 中 时 ， 要 将 开始 
扇 区 号 除 以 4。 


unsigned long nr_sectors; 
需要 传输 的 遍 区 (512 字 节 ) 数 。 


char *buffer; 


要 传输 或 者 要 接收 数据 的 缓冲 区 指针 。 该 指针 在 内 核 虚拟 地 址 中 , 如 果 有 需要 , 驱 
动 程序 可 以 直接 引用 它 。 


rq_data dir{struct request *req); 


这 个 宏 从 request 中 得 到 传输 的 方向 。 返 回 值 为 0 表示 从 设备 读数 据 ， 非 0 表示 向 
设备 写 数据 。 


有 了 这 些 信息 ,sbul! 驱动 程 序 可 以 简单 的 使 用 memcpy 调 用 来 完成 实际 的 数据 传输 。 完 
成 撕 贝 操作 的 函数 (sbull_transfer) 还 处 理 和 缩放 遍 区 的 大 小 , 以 保证 拷贝 操作 不 会 超 
出 虚拟 设备 的 范围 : 


static void sbull_transferlstruct sbull_dev *dev, unsigned long sector, 
unsigned long nsect, char *buffer, int write) 
{ 
unsigned long offset = sector*KERNEL SECTOR_SIZE; 
unsigned long nbytes = nsect*KERNEL _SECTOR_SIZE; 


if ({(offset + nbytes) > dev->size) { 
printk (KERN_NOTICE "Beyond-end write {(%1ld %1d}\n", offset, nbytes}; 
return; 

} 

if (write) 
memcpy (dev->data + offset, buffer, nbytes); 

else 
memcpy (buffer, dev->data + offset, nbytes}; 

} 


使 用 上 面 的 代码 ，sbul! 实现 了 完全 的 、 简 单 的 、 基 于 RAM 的 磁盘 设备 。 然 而 对 许多 类 
型 的 设备 来 说 ， 出 于 多 种 原因 ， 它 并 不 是 一 个 实际 的 驱动 程序 。 


第 一 个 原因 是 sbul1 是 同步 执行 请 求 的 , 每 次 一 条 。 高 性 能 的 磁盘 设备 具有 同时 处 理 多 条 
请 求 的 能 力 ; 在 主板 上 的 磁盘 控制 器 能 以 最 优 的 顺序 执行 它们 (希望 是 这 样 )。 只 要 处 
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理 了 队列 中 的 第 一 条 请 求 , 那么 在 同一 时 间 内 队列 中 就 不 能 有 多 个 请 求 了 。 为 了 能 对 多 
于 一 条 的 请 求 进行 处 理 ， 就 需要 对 请 求 队列 以 及 request 结构 有 更 深入 的 了 解 ， 后面 
的 一 些 章节 将 帮助 读者 达到 这 个 目的 。 


还 有 一 个 问题 需要 考虑 。 当 系统 对 磁盘 中 连续 的 扇 区 进行 大 数据 量 的 读 写 时 , 我 们 能 够 
获得 磁盘 设备 最 好 的 性 能 。 对 磁盘 操作 的 最 昂贵 的 代价 总 是 确定 读 写 数据 开始 的 位 置 ; 
一 卫 位 置 确定 了 后 , 实际 用 于 读 取 或 者 写 信 数据 的 时 间 几 乎 是 无 关 紧 要 的 。 设计 和 实现 
文件 系统 和 虚拟 内 存 的 开发 人 员 深 说 此 点 ， 因 此 他 们 尽量 在 磁盘 上 连续 放置 相关 数据 ， 
这 样 在 一 个 请 求 中 就 能 传输 尽 可 能 多 的 扇 区 。 块 设备 子 系统 也 是 这 样 做 的 ; 请 求 队列 包 
含 了 大 量 逻 辑 ， 用 来 发 现 相 邻 请 求 并 把 它们 集合 成 一 个 更 大 的 操作 。 


sbull 驱 动 程序 没有 做 更 多 的 上 述 工 作 , 只 是 简单 地 忽略 了 它们 。 一 次 只 能 传输 一 个 缓存 
的 内 容 , 这 意味 着 一 次 最 大 的 传输 量 几乎 不 能 超越 单 页 的 大 小 。 一 个 块 设备 驱动 程序 可 
以 做 得 比 这 更 好 ， 但 是 这 需要 对 request 结构 和 建立 请 求 的 bio 结构 有 更 深 的 了 解 。 


下 面 几 个 小 节 将 对 块 设备 层 如 何 完成 其 工作 ， 以 及 所 创建 的 数据 结构 做 更 深入 的 介绍 。 


请 求 队列 


从 简单 的 直觉 上 讲 , 一 个 块 设备 请 求 队列 可 以 这 样 描述 : 包含 块 设备 IO 请 求 的 序列 。 如 
果 只 是 这 样 理解 , 一 个 请 求 队列 将 产生 极其 复杂 的 数据 结构 。 幸 运 的 是 ,驱动 程序 基本 
不 需要 考虑 这 种 复杂 性 。 


请 求 队列 跟踪 未 完成 的 块 设备 的 IO 请 求 。 但 是 它们 在 创建 这 些 请 求 时 也 充当 了 一 个 药 
刻 的 角色 。 请 求 队列 保存 了 描述 设备 所 能 处 理 的 请 求 的 参数 : 最 大 尺寸 、 在 同一 个 请 求 
中 所 能 包含 的 独立 段 的 数目 、 硬 件 扁 区 的 大 小 、 对 章 需 求 等 等 。 如 果 请 求 队列 被 合理 的 
配置 ， 就 不 会 提供 设备 不 能 处 理 的 请 求 。 


请 求 队列 还 实现 了 插件 接口 ， 使 得 多 个 IO 调度 器 的 使 用 成 为 可 能 。 一 个 IO 调度 器 的 
作用 是 以 性 能 最 大 化 为 上 的， 为 驱动 程序 提供 MO 请 求 。 大 多 数 I/O 调度 器 积累 了 大 量 
的 请 求 , 根据 块 索引 号 升序 (或 者 降序 ) 排列 它们 ， 并 按照 这 种 顺序 向 哎 动 程序 发 送 请 
求 。 当 给 出 一 个 排列 好 的 请 求 列表 后 , 磁头 将 从 一 个 磁盘 的 末尾 移 向 另外 一 个 磁盘 ， 如 
同 单 向 电梯 一 样 ， 直 到 每 个 请 求 〈 等 待 出 电梯 的 人 们 ) 都 得 到 满足 。2.6 版 本 内 核 包含 
了 一 个 “最 终 期 限 调度 器 ”, 它 努 力 使 得 每 个 请 求 在 预先 设 定 的 最 长 时 间 内 得 到 满足 ; 还 
包含 了 一 个 “预计 调度 器 "， 它 实际 上 在 一 个 读 操作 后 暂时 延缓 了 设备 以 期 望 另外 一 个 
读 操作 的 到 来 。 在 编写 本 书 的 时 候 ， 默 认 的 调度 器 是 “预计 调度 器 ” ， 它 似乎 能 提供 最 
好 的 系统 交互 性 能 。 
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1/0 调 度 器 还 负责 合并 邻近 的 请 求 。 当 新 的 VO 请 求 被 传递 给 调度 器 时 , 它 将 在 队列 中 搜 
索 包 含 邻 近 遍 区 的 请 求 ; 如 果 发 现 一 个 这 样 的 请 求 , 并且 该 请 求 并 不 费时 , 则 合并 这 两 
个 请 求 。 

请 求 队列 拥有 request_queue 或 者 request_queue 上 结构 类 型 。 在 <linux/plkdev.h> 中 
定义 了 该 结构 及 操作 该 结构 的 函数 。 如 果 对 请 求 队列 的 实现 感 兴趣 ， 可 以 在 drivers/ 
block/ll_rw_block.c 和 elevator.c 中 找到 大 部 分 代码 。 


队列 的 创建 与 删除 
在 例子 代码 中 可 以 看 到 , 一 个 请 求 队列 就 是 一 个 动态 的 数据 结构 , 该 结构 必须 由 块 设备 
的 IO 子 系统 创建 。 创 建 和 初始 化 请 求 队列 的 国 数 是 : 


request_queue_t *blk_init_cueue (request_fn_proc *Tequest， spinlock_t *lock); 


该 函数 的 参数 是 处 理 这 个 队列 的 request 函数 指针 和 控制 访问 队列 权限 的 自 旋 锁 。 由 于 
该 函数 负责 分 配 内 存 (实际 上 是 相当 多 的 内 存 )， 因 此 可 能 会 失败 ; 所 以 在 使 用 队列 前 
一 定 要 检查 返回 值 。 


作为 初始 化 请 求 队列 的 一 部 分 ， 可 以 把 成 员 aueuedata (是 一 个 void 类 型 的 指针 ) 设 
蜀 为 任意 值 。 该 成 员 在 请 求 队列 中 的 作用 与 已 经 探讨 过 的 其 他 数据 结构 中 的 
private_dqata 是 等 同 的 。 


为 了 把 请 求 队列 返回 给 系统 (通常 在 模块 印 载 的 时 候 ) ， 需 要 调用 bik_cleanup_queue: 


void blk_cleanup_queue (request_queue_t *); 


调用 该 函数 后 ， 驱 动 程序 将 不 会 再 得 到 这 个 队列 中 的 请 求 ， 也 不 能 再 引用 这 个 队列 了 。 


队列 函数 
只 有 很 少 的 几 个 函数 负责 处 理 队列 中 的 请 求 一 一 至 少 对 驱动 程序 来 说 是 这 样 的 。 在 调 
用 这 些 函 数 前 ， 必 须 拥 有 队列 锁 。 
返回 队列 中 下 一 个 要 处 理 的 请 求 的 函数 是 elvy_next_request: 

struct request *elv next_request (request_queue_t *queue); 
在 sbul! 例子 程序 中 ， 已 经 看 到 过 这 个 函数 了 。 它 返回 下 一 个 需要 处 理 的 请 求 指针 (由 
IO 调度 器 决定 ) ,如 果 没 有 请 求 需要 处 理 , 则 返回 NULLD。elv_next_request 依 然 将 请 求 


保存 在 队列 中 ,但 是 为 其 做 了 活动 标记 ; 该 标记 保证 了 当 开始 执行 该 请 求 时 ，IO 调度 
器 不 再 将 该 请 求 与 其 他 请 求 合并 。 
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将 请 求 从 队列 中 实际 删除 ， 使 用 blkdevy_dequeue_request 国 数 : 


void blkdev_dequeue_request (struct request *req}; 


如 果 驱 动 程序 同时 处 理 同一 队列 中 的 多 个 请 求 , 则 驱动 程序 必须 按 此 方式 将 它们 拿 出 队 
列 。 


如 果 出 于 某 些 原因 要 将 拿 出 队列 的 请 求 再 返回 给 队列 、 使 用 下 面 的 函数 : 


void elv_recueue_redquest (request_ queue_t *queue, struct request *Treq) 


队列 控制 函数 
驱动 程序 可 以 使 用 块 设备 层 导 出 的 一 组 函数 去 控制 请 求 队列 的 操作 。 这 些 函数 包括 : 


void blk_stop_queue (request_queue_t *queue); 

void blk_start_queue(request. queue ft *queue); 
如 果 驱 动 程序 进入 不 能 再 处 理 更 多 命令 的 状态 , 它 将 调用 blk_stop_queue 以 通知 块 
设备 层 。 调 用 该 函数 后 ，request 函数 在 驱动 程序 调用 blk_start_queue 之 前 ,不 会 
再 被 调用 了 。 顺理成章 的 是 , 当 驱 动 程序 能 够 处 理 更 多 请 求 时 , 不 要 忘记 重新 开始 
队列 。 当 调用 上 述 两 个 函数 时 ， 队 列 锁 应 该 被 锁 住 。 

void blk_queue bounce_limit (request_queue _t *queue, u64 dma_addr); 
该 函数 告诉 内 核 驱动 程序 执行 DMA 所 使 用 的 最 高 物理 内 存 。 如 果 一 个 请 求 包含 了 
超越 界限 的 内 存 引 用 , 将 使 用 回 弹 缓冲 区 (bounce buffer) 进行 处 理 。 当 然 如 此 执 
行 块 设备 I/O 的 代价 是 高 郧 的 , 因此 要 尽量 避免 。 可 以 把 任何 可 行 的 物理 地 址 作为 
该 函数 的 参数 ， 或 者 使 用 预定 义 好 的 BLK_BOUNCE_HIGH (对 高 端 内 存 页 使 用 回 
弹 缓冲 区 )、BLK_BOUNCE_IS&A (驱动 程序 只 能 在 16MB 的 ISA 区 执行 DMA)、 
BLK_BOUNCE_ANY (驱动 程序 能 在 任何 地 址 执行 DMA )。 默 认 值 是 BLK_BOUNCE_ 
HIGH。 


void blk_queue_max_sectors (Tequest_queue_t *queue, unsigned Short max); 
void blk_queue max_phys_segments (request. queue t *queue, nsiqgned short max) ; 
void blk_queue max_ hw_segments (request_queue t *queue, unsigned short max); 
void blk_queue max_segment_size(request_queue_t *queue, unsigned int max); 
这 些 函 数 负责 设置 描述 请 求 的 参数 ， 以 满足 驱动 程序 的 需要 。 
blk_queue_max_sectors 用 (512 字 节 ) 遍 区 为 单位 设置 请 求 的 最 大 值 ， 默 认 值 是 
255,。 blk_queue_max_phys_segments 和 Dik_queue_max_hw_segments 用 来 控制 在 
一 个 请 求 中 包含 了 多 少 个 物理 段 (在 系统 内 存 中 的 非 连 续 区 成 员 )。blk_queue_ 
max_phys_segments 表 示 驱 动 程序 准备 处 理 多 少 个 段 ; 它 可 能 是 一 个 静态 分 配 的 分 
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散 表 的 大 小 。 与 此 相反 , blk_queue_max_hw_segments 指 的 是 驱动 程序 自身 可 以 处 
理 的 段 的 最 大 数量 。 这 两 个 参数 的 默认 值 都 是 128。 最 后 blk_queue_max_ 
segment_size 以 字 革 为 单位 告诉 内 核 一 个 请 求 中 单独 段 的 大 小 ,其 默认 值 是 65536 
字 节 。 

blk_queue_segment_boundary (request_queue t *queue, unsigned long mask) ; 
一 些 设备 无 法 处 理 那些 跨越 特定 大 小 内 存 边 界 的 请 求 ; 如 果 用 户 使 用 的 是 这 样 的 设 
备 , 使 用 该 函数 告诉 内 核 特定 的 边界 . 比如 设备 不 能 处 理 跨 越 4MB 边界 的 请 求 , 则 
mask 的 值 为 0x3fffff。 默 认 的 mask 是 0xffffffff。 

void blk_queue_dma_alignment (request_queue_t *queue, int mask); 
该 函数 告诉 内 核 设备 在 使 用 PDMA 传输 时 的 内 存 对 齐 限制 。 所 有 请 求 都 是 按照 指定 
的 对 齐 方式 创建 的 , 并 且 请 求 的 大 小 也 与 对 齐 方式 所 匹配 。 默 认 的 mask 是 0x1ff， 
它 使 得 所 有 的 请 求 都 使 用 512 字 节 对 齐 方式 。 

void blk_aqueue_hardsect_size(reduest_queue t *queue, unsigned short max); 
该 函数 告诉 内 核 设备 硬件 的 遍 区 大 小 。 所 有 由 内 核 生成 的 请 求 都 是 该 大 小 的 整数 
倍 , 并 且 做 到 了 边界 对 齐 。 在 块 设备 层 和 驱动 程序 之 间 的 通信 都 是 以 512 字 节 的 扁 
区 为 单位 的 。 


请 求 过 程 剖 析 
在 例子 程序 中 ,使 用 了 request 结 构 。 但 对 这 个 复杂 的 数据 结构 也 仅仅 是 浅 尝 即 止 , 在 
本 节 中 ， 将 对 其 进行 仔细 的 分 析 ， 并 了 解 块 设备 1/O 在 Linux 内 核 中 是 如 何 表示 的 。 


每 个 request 结 构 都 代表 了 一 个 块 设备 的 IO 请 求 , 在 较 高 的 层次 , 它 可 能 是 通过 对 多 
个 独立 请 求 合并 而 来 .为 了 一 个 特定 的 请 求 而 传输 的 扇 区 可 能 分 布 在 整个 内 存 中 , 但 是 
通常 在 块 设备 中 , 它们 是 多 个 连续 的 扁 区 。 请 求 被 表示 为 一 系列 段 ， 每 个 段 都 对 应 内 存 
中 的 一 个 缓冲 区 。 如 果 多 个 请 求 都 是 对 磁盘 中 相 邻 扇 区 进行 操作 ， 则 内 核 将 合并 它们 ， 
但 是 内 核 不 会 合并 在 单独 Trequest 结构 中 的 读 写 操作 。 如 果 合 并 的 结果 会 打破 对 请 求 
队列 的 限制 ， 则 内 核 也 不 会 对 请 求 进行 合并 。 


从 本 质 上 讲 , 一 个 request 结构 是 作为 一 个 bio 结 构 的 链表 实现 的 。 当 然 是 依靠 一 些 
管理 信息 来 组 合 的 , 这样 保 证 在 执行 请 求 的 时 候 ， 驱 动 程序 能 知道 执行 的 位 置 。 bio 结 
构 是 在 底层 对 部 分 块 设备 VO 请 求 的 描述 。 下 面 对 其 进行 详细 描述 。 


bio 结构 
当 内 核 以 文件 系统 、 虚 拟 内 存 子 系统 或 者 系统 调用 的 形式 决定 从 块 IO 设备 输入 、 输 出 
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块 数据 时 ， 它 将 再 结合 一 个 bio 结构 ， 用 来 描述 这 个 操作 。 该 结构 被 传递 给 UO 代码 ， 
代码 会 把 它 合并 到 一 个 已 经 存在 的 request 结构 中 ,或 者 根据 需要 ， 青 创建 一 个 新 的 
request 结构 。bio 结构 包含 了 驱动 程序 执行 请 求 的 全 部 信息 ,而 不 必 与 初始 化 这 个 
请 求 的 用 户 空 间 的 进程 相关 联 。 


bio 结构 在 <linux/bio.h> 中 定义 ， 其 中 包含 了 驱动 程序 作者 所 要 使 用 的 诸多 成 员 。 


sector.t bi_sector; 
该 bio 结构 所 要 传输 的 第 一 个 (512 字 节 ) 扇 区 。 

unsigned int bi size; 
以 字 节 为 单位 所 需 传 输 的 数据 大 小 。 通常 使 用 bio_sectors (bio) 宏 获得 每 个 
遍 区 的 大 小 。 

unsigned long bi_flags; 
bio 中 一 系列 的 标志 位 ; 如 果 是 写 请 求 , 最 低 有 效 位 将 被 设置 (使 用 bio_data_ 
dir (bio) 宏 ,而 不 是 直接 查看 该 标志 )。 

unsigned short bio_phys_segments; 

unsigned short bio_hw_segments; 
当 DMA 了 映射 完成 时 , 它们 分 别 表示 BIO 中 包含 的 物理 段 的 数目 和 硬件 所 能 操作 的 
段 的 数目 。 


bio 结构 的 核心 是 一 个 名 为 bi_io_vec 的 数组 ， 它 是 由 下 面 的 结构 组 成 的 : 


struct bio vec { 
struct page *bv_page; 
unsigned int bv_len; 
unsigned int bv_offset; 
}; 
图 16-1 显示 了 这 些 结构 是 如 何 紧 密 结合 的 。 正 如 读者 看 到 的 ， 当 块 设备 WO 请求 被 转换 
到 bio 结 构 后 , 它 将 被 单独 的 物理 内 存 页 所 销毁 。 驱动 程序 所 做 的 所 有 工作 就 是 根据 这 
个 结构 数组 (bi_vcnt 构成 )， 使 用 每 页 传输 数据 (在 偏 移 位 置 传输 len 个 字 节 )。 


为 了 让 内 核 开发 者 能 在 未 来 修改 bio 结 构 , 而 又 不 用 重新 编写 驱动 程序 代码 , 并 不 推荐 
直接 使 用 bi_io_vec。 因 此 在 使 用 bio 结构 的 时 候 ， 提 供 了 一 套 宏 来 简化 工作 过 程 。 
在 使 用 bio 来 操作 每 个 段 的 开始 阶段 , 它 只 是 简单 地 在 bi_io_vec 数 组 中 遍历 每 个 没 
有 被 处 理 的 和 人口 。 使 用 下 面 的 宏 完成 这 个 工作 : 
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图 16-1: bio 结构 


int segno; 
struct bio_vec *bvec; 


bio_for_each_segment (bvec, bio, segno) { 
/* 使 用 该 段 进行 一 定 的 操作 */ 

} 
在 遍历 循环 过 程 中 ，bvec 指向 当前 的 bio_vec 入 口 ，segno 是 当前 的 段 号 。 使 用 这 
些 值 来 建立 DMA 传 输 ( 另 外 一 种 使 用 blk_rq_map_sg 的 方法 将 在 “ 块 设备 请 求 和 DMA” 
一 节 中 讲述 )。 如 果 需 要 直接 访问 页 ， 需要 首先 保证 正确 的 内 核 虚 拟 地 址 是 存在 的 。 为 
达到 这 个 目的 ， 可 以 使 用 : 

char *__bio_kmap_atomicl(struct bio *bio, int i, enum km type type); 

void __bio_kunmap_atomic(char *buffer, enum km type type); 
这 个 底层 函数 直接 映射 了 指定 索引 号 为 i 的 bio_vec 中 的 缓冲 区 。 一 个 原子 kmap 被 创 
建 ; 调用 者 必须 提供 正确 的 槽 以 供 使 用 (在 第 十 五 章 中 的 “内 存 映射 和 struct page 结 构 ” 
中 讲述 )。 
为 了 能 追踪 正在 处 理 的 请 求 的 当前 状态 , 块 设备 层 也 在 bio 结构 中 维护 了 一 系列 指针 。 
提供 了 一 些 宏 用 来 访问 这 个 状态 : 


struct page *bio_page(struct bio *bio); 
返回 指向 下 一 个 传输 页 的 Page 结构 的 指针 。 
int bio_offset(struct bio *bio); 
返回 在 页 中 被 传输 数据 的 偏 移 量 。 


int bio_cur_sectors (struct bio *bio); 


返回 要 在 当前 页 中 传输 的 扇 区 数量 。 
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char *bio data{struct bio *bio); 
返回 指向 被 传输 数据 的 内 核 逻 辑 地 址 。 请 注意 只 有 当 正 在 处 理 的 页 不 在 高 端 内 存 
时 , 该 地 址 才 有 效 。 在 默认 的 情况 下 , 块 设备 子 系统 不 会 把 高 端 内 存 中 的 缓冲 区 传 
递 给 驱 动 程序 , 但 是 ， 如 果 使 用 blk_queue_bounce_limit 改 变 了 这 一 设置 ,就 不 应 
该 再 使 用 bio_adqata 了 。 


char *bio_kmap_irq(struct bio *bio, unsigned long *flags); 

void bio kunmap_irq(char *buffer, unsigned long *flags); 
bio_kmap_irq 可 以 为 任何 缓冲 区 返回 内 核 虚 拟 地 址 ,而 不 管 其 是 在 高 端 内 存 还 是 在 
低 端 内 存 中 。 使 用 了 一 个 原子 kmap， 因 此 驱动 程序 在 这 个 映射 处 于 活动 状态 时 不 
能 睡眠 。 使 用 pio_kunmap_irg 可 取消 缓冲 区 上 映射。 请 注意 这 里 的 flags 参数 是 以 
指针 形式 传递 的 。 还 要 注意 的 是 ， 由 于 使 用 了 原子 kmap， 因 此 在 同一 时 刻 ， 不 能 
映射 超过 一 个 段 。 


刚才 讲述 的 所 有 函数 在 访问 “当前 ”缓冲 区 一 一 第 一 个 缓冲 区 时 , 直到 内 核 知 道 前 , 组 
冲 区 还 没有 被 传输 。 驱 动 程序 经 常 希望 在 通知 完成 任何 缓冲 区 (使 用 
end_that_request_first， 一 会 将 要 讲 到 ) 前 , 完成 bio 中 的 多 个 缓冲 区 ， 因 此 这 些 函 数 
的 用 处 就 不 大 了 。 还 有 一 些 其 他 的 宏 用 于 bio 结 构 的 内 部 (参看 <linux/bio.h> 了 解 详细 
情况 ) 。 


request 结构 成 员 


我 们 已 经 知道 bio 结构 是 如 何 工作 的 了 , 现在 要 仔细 探究 request 结构 ,以 了 解 请 求 
过 程 的 工作 情况 。 该 结构 中 的 成 员 包 括 : 


sector_t hard_ sector:; 

unsigned long hard nr_sectors; 

unsigned int hard cur,sectors; 
用 于 追踪 那些 驱动 程序 还 未 完成 的 扁 区 。 还 未 传输 的 第 一 个 扁 区 保存 在 
nard_sector 中 ， 等 待 传输 遍 区 的 总 数量 保存 在 hard_nr_sectors 中 ,当前 bio 
中 剩余 的 扁 区 数目 包含 在 hardq_cur_sectors 中 。 这 些 成 员 只 能 被 块 设备 子 系统 所 
使 用 ， 驱 动 程序 不 能 使 用 它们 。 

struct bio *bio; 
b i o 是 该 请 求 的 b i o 结构 链表 。 不 能 直接 对 该 成 员 进 行 访问 ; 而 要 使 用 
rg_for_each_bio (后 面 讲述 ) 访问 。 
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Char xbUELeZ7 
本 章 前 面 那个 简单 的 例子 中 , 使 用 该 成 员 来 查找 需要 传输 的 缓冲 区 .。 随 着 理解 的 不 
断 深 入 ， 可 以 看 到 这 个 成 员 不 过 是 在 当前 bio 中 调用 bio_data 的 结果 。 
unsigned short nr_phys_segments; 
该 值 表 示 当 相 邻 的 页 被 合并 后 ， 在 物理 内 存 中 被 这 个 请 求 所 占用 的 段 的 数目 。 
struct list_ head queuelist; 
它 是 一 个 内 核 链表 结构 (在 第 十 一 章 的 “链表 ”一 节 中 讲述 )， 用 来 把 请 求 链接 到 
请 求 队列 中 。 如 果 (只 有 当 ) 使 用 blkdev_dequeue_request 函数 把 请 求 从 队列 中 删 
除 时 ， 我 们 可 以 使 用 这 个 链表 来 跟踪 由 驱动 程序 维护 的 内 部 链表 中 的 请 求 。 


图 16-2 显示 了 request 结构 和 它 的 bio 结构 是 如 何 结合 在 一 起 的 。 在 图 中 ， 请 求 被 部 分 
处 理 了 ,而 cbio 和 buffer 成 员 指向 第 一 个 未 被 传输 的 bio 结构 。 
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图 16-2: 有 一 个 正在 处 理 请 求 的 请 求 队列 


在 request 结 构 中 , 还 有 许多 其 他 的 成 员 , 但 是 本 节 中 的 列表 能 满足 大 部 分 驱动 程序 作者 
的 需要 。 


屏障 请 求 

在 驱动 程序 接收 到 请 求 前 , 块 设备 层 重新 组 合 了 请 求 以 提高 IO 性 能 。 出 于 同样 的 目的 ， 
驱动 程序 也 可 以 重新 组 合 请 求 . 通 常 重新 组 合 是 发 生 在 将 多 个 请 求 发 送 给 驱动 程序 并 让 
硬件 解决 优化 顺序 时 。 但 是 在 无 限制 重新 组 合 请 求 时 面临 了 一 个 问题 : 一 些 应 用 程序 的 
某 些 操作 , 要 写 在 另外 一 些 操作 开始 前 完成 。 比如 关系 数据 库 就 必须 保证 在 执行 一 个 关 
于 数据 库 内 容 的 会 话 前 ， 日 志 信息 要 写 到 驱动 器 上 。 日 志文 件 系统 目前 已 经 在 大 多 数 
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Linux 系统 中 使 用 ， 它 就 有 非常 相似 的 限制 。 如 果 重 新 组 合 了 错误 的 操作 ， 将 会 导致 严 
重 的 、 无 法 检测 的 数据 破坏 。 


2.6 版 本 的 块 设备 层 使 用 屏障 (barrier) 请 求 来 解决 这 个 问题 。 如 果 一 个 请 求 被 设置 了 
REQ_HARDBARRER 标 志 , 那么 在 其 他 后 续 请 求 被 初始 化 前 , 它 必 须 被 写 人 上 驱动 器。 写 
入 虹 动 器 ”的 意思 是 数据 必须 持久 保存 在 物理 介质 中 。 许多 驱动 器 会 缓存 写 请 求 ; 这 种 
缓存 提高 了 性 能 , 但 是 也 违背 了 屏障 请 求 的 初 正 。 如 果 当 重要 数据 还 在 驱动 器 的 缓存 中 
时 发 生 了 掉 电 故障 , 即使 驱动 器 报告 没 发 生 错误 , 数据 也 会 丢失 。 因 此 一 个 实现 屏障 请 
求 的 驱动 程序 一 定 要 采取 措施 ， 使 得 驱动 器 将 数据 真正 写 人 介质 中 。 

如 果 驱 动 程序 要 实现 屏障 请 求 , 所 要 做 的 第 一 步 是 将 这 一 特性 通知 块 设备 层 。 屏 障 操作 
是 另外 一 个 请 求 队列 ; 用 下 面 的 函数 设置 


void blk_queue_orderedl{lrequest_queue_t *queue, int flag); 


指出 驱动 程序 要 实现 屏障 请 求 ， 将 £1ag 参数 设置 为 非 零 值 。 
屏障 请 求 的 实现 只 是 检测 request 结构 中 的 相关 标志 ， 为 此 ,内核 提供 了 一 个 宏 完 成 
这 个 工作 : 
int blk_barrier_rg(Struct request *req); 
如 果 这 个 宏 返 回 一 个 非 零 值 , 该 请 求 是 一 个 屏障 请 求 。 由 硬件 的 工作 方式 所 决定 ， 可 以 


在 一 个 屏障 请 求 完成 前 ,停止 从 队列 中 取 请 求 。 另 外 一 些 驱动 器 自己 就 能 处 理 屏障 请 求 ， 
在 这 种 情况 下 ， 驱 动 程序 所 要 做 的 只 是 为 这 些 驱 动 器 提供 正确 的 操作 。 


不 可 重 试 请 求 

当 第 一 次 请 求 失败 后 ， 块 设备 驱动 程序 经 常 要 重 试 请 求 。 这 样 的 性 能 使 得 系统 更 可 靠 ， 
不 会 丢失 数据 。 然而 内 核 有 些 时 候 标记 请 求 是 不 可 重 试 的 。 这 些 请 求 如 果 在 第 一 次 执行 
失败 后 ， 要 尽快 抛弃 。 

如 果 驱 动 程序 要 重 试 一 个 失败 的 请 求 ， 首 先 它 要 调用 : 


int blk_noretry_request (Struct request *req); 


如 果 访 宏 返 回 一 个 非 零 值 , 那么 驱动 程序 只 要 忽略 这 个 请 求 并 返回 错误 值 就 可 以 了 , 不 
用 重 试 它 。 


请 求 完成 函数 


正如 已 经 看 到 的 ， 还 有 许多 不 同方 法 处 理 request 结构 。 它 们 都 使 用 一 系列 的 常用 函 
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数 ， 来 处 理 全 部 的 VO 请求 ,或 者 请 求 的 一 部 分 。 所 有 这 些 函 数 都 是 原子 操作 的 ， 因 此 
可 以 从 原子 上 下 文中 被 安全 调用 。 


当 设 备 完成 在 一 个 IO 请 求 的 部 分 或 者 全 部 的 扇 区 时 ， 它 必须 调用 下 面 的 函数 通知 块 设 
备 子 系统 : 


int end_ that_request_ first{struct request *req, int success, int count); 


该 函数 告诉 块 设备 代码 : 驱动 程序 从 前 一 次 结束 的 地 方 开 始 , 完成 了 规定 数目 的 扇 区 的 
传输 。 如 果 IO 成 功 ， 则 传递 1 表示 成 功 ; 否则 传递 90。 请 注意 必须 报告 从 第 一 个 扁 区 
到 最 后 一 个 扇 区 的 完成 情况 ; 如 果 驱 动 程序 和 设备 因 不 明 原 因 颠 倒 完成 请 求 的 顺序 , 必 
须 保 存 颠 倒 完成 的 状态 直到 涉及 的 扇 区 传输 完毕 。 


end_rhat_reguest_First 的 返回 值 表 明 该 请 求 中 的 所 有 扇 区 是 否 被 传输 。 如 果 返 回 值 是 0 
表示 所 有 的 扇 区 都 被 传输 了 ， 该 请求 执行 完毕 。 此 时 必须 使 用 blkdev_dequeue_request 
函数 删除 请 求 (如 果 还 没有 做 这 步 )， 并 把 其 传递 给 : 


void end_that_ request_last (struct request *req); 


end_that_request_last 通知 任何 等 待 已 经 完成 请 求 的 对 象 ， 并 重复 利用 该 request 结 
构 ; 调用 该 函数 时 ， 必 须 拥 有 队 鹿 镇 。 


在 我 们 的 简单 sbul! 例子 程序 中 ， 并 未 使 用 上 面 所 述 的 任何 函数 。 使 用 这 些 函 数 的 例子 
是 下 面 的 end_request 函 数 。 为 了 显示 该 函数 的 效果 ， 下 面 是 在 2.6.10 内 核 中 end_request 
函数 的 全 部 代码 : 
void end_ request(struct request *req, int uptodate) 
{ 
if (!end_that request_first{req, uptodate, req->hard cur_sectors)) { 
add_disk_randomness (req->rq_disk); 
blkdev_dequeue_request (req);: 
end_that_request_last (req); 
: 
} 


add_disk_randomness 函 数 使 用 块 设备 LO 请 求 时 间 来 增加 系统 的 随机 数 池 坟 。 只 有 当 磁 
盘 传 输 速率 确实 是 随机 的 时 候 才 使 用 该 函数 。 对 于 大 多 数 机 械 设备 来 说 是 这 样 的 , 但 是 
对 于 基于 内 存 的 虚拟 设备 来 说 就 不 同 了 ， 比 如 sbul1。 因 此 在 下 一 节 中 复杂 版 本 的 sbull 
将 不 使 用 add_disk_randomness 国 数 。 


使 用 bio 
现在 读者 有 足够 的 知识 通过 直接 操作 组 成 请 求 的 bio 结构 来 编写 一 个 块 设 备 驱 动 程序 
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了 。 参看 例子 代码 是 很 有 帮助 和 的。 如果 request_mode 参数 设置 为 1 时 加 载 sbul! 驱 动 
程序 ， 它 将 注册 一 个 bio 请 求 函 数 ， 来 代替 前 面 看 到 的 简单 函数 。 该 函数 如 下 : 


static void sbull_full_request {request queue.t *G) 
{ 

struct request *req; 

int sectors_ xferred; 

struct sbull dev *dev = q->queuedata; 


while ((req = elv_next_request(q)) != NULL) { 

it (! blk fs_request(req)) { 
printk (KERN_NOTICE "Skip non-fs request\n"); 
end_request {req, 0); 
continue; 

} 

sectors_xferred = sbull_xfer_request (dev, req); 

if {! end that request_first(req, 1, sectors_xferred)) { 
blkdev_dequeue_request (req)，; 
end_ that_request_last (req); 


} 


该 函数 只 是 获得 了 每 一 个 请 求 ， 并 把 它们 传递 给 sbull_xfer_request， 然 后 使 用 
end_that_request_first 完 成 请 求 , 如 果 有 必要 的 话 , 还 使 用 end_that_request_last 函数 。 
因此 该 函数 可 以 处 理 部 分 高 级 队列 和 请 求 管理 问题 。 实 际 执行 一 个 请 求 的 工作 交 给 
Sbull_xfer_request 图 数 完成 : 


static int sbul1_xfer_request (Struct sbull dev *dev, struct request *req) 
{ 
struct bio *bio; 
int nsect = 0; 


rdq_for_each_bio{bio, reqg) { 
sbull_xfer_biol(dev, bio); 


nsect += bio->bi size/KERNEL._SECTOR_ SIZE; 
} 


return nsect; 


} 


这 里 介绍 另外 一 个 宏 : rq_for_each_bio。 正 如 读者 想像 的 那样 , 该 宏 只 是 遍历 了 请 求 中 
的 每 个 bio 结构 ， 并 且 提 供 了 可 以 传递 给 sbull_xfer_bio 函数 用 于 传输 的 指针 。 下 面 是 
该 也 数 的 代码 : 


static int sbull xfer bio{struct sbull_dev *dev, struct bio *bio) 
{ 

Lr 

struct bio_vec *bvec; 

sector_t sector = bio->bi_sector; 
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/* 对 每 个 段 独立 操作 */ 
bio_for_each_segment (bvec，bio，i) { 
char *buffer = bio_kmap_atomic (bio, i, KM_USERO); 


sbull_ transfer{dev, sector, bio_cur_sectors(bio), 
buffer, bio_data dir(bio} = = WRITE); 
sector += bio_cur_sectors (bio) ; 
__bio_kunmap_atomic(bio, KM USERO) ; 
} 
return 0; 
/* 总 是 “成 功 ”*/ 
} 
该 函数 遍历 了 bio 结 构 中 的 每 个 段 , 获得 内 核 虚 拟 地 址 以 访问 缓冲 区 , 然后 调用 前 面 介 
绍 过 的 sbull_transfer 国 数 ， 以 完成 数据 的 拷贝 。 


每 个 设备 都 有 自己 的 需求 , 但 是 作为 一 条 通用 的 准则 , 上 述 代码 为 众多 情况 提供 了 一 种 
模型 ， 在 这 种 模型 中 ， 充 分 利用 bio 结构 是 必要 的 。 


块 设备 请 求 和 DMA 
如 果 使 用 的 是 一 个 高 性 能 块 驱动 程序 ， 在 实际 传输 过 程 中 可 以 使 用 DMA。 一 个 块 设 备 
驱动 程序 可 以 像 前 面 讨论 的 那样 遍历 bio 结构 , 并 为 每 个 bio 结 构 创 建 DMA 映 射 , 并 将 
结果 传递 给 设备 。 如 果 读 者 的 设备 可 以 完成 “分 散 /聚集 ”IO ,有 一 个 更 简便 的 实现 方 
法 。 国 数 : 

int blk_rq map_sg{(request_queue t *queue, struct request *reg, 

struct scatterlist *list); 

从 指定 的 请 求 中 获得 全 部 的 段 , 然后 把 它们 填写 到 给 定 的 表 中 。 在 内 存 中 相 邻 的 段 将 被 
结合 在 分 散 表 插 入 点 的 前 面 ， 因 此 无 需 检测 它们 。 返 回 值 表示 的 是 表 中 人 口 项 的 个 数 。 
该 函数 会 使 用 第 三 个 参数 返回 一 个 分 散 表 , 它 可 用 来 传递 给 dma_map_sg (请 参看 第 十 
五 章 “ 分 散 - 聚集 映射 ”获得 关于 dma_map_sg 的 知识 )。 


在 调用 blk_rqg_map_sg 前 ， 驱动 程序 必须 为 分 散 表 分 配 存储 空间 。 该 表 必 须 能 容纳 至 少 

与 请 求 所 拥有 的 物理 段 同样 多 的 和 人口 项 .request 结构 中 nr_phys_segments 成 员 包含 

了 这 个 数量 ， 它 不 能 超过 blk_queue_max_phys_segments 所 设 定 的 物理 段 的 最 大 值 。 

如 果 不 想 让 blk_rq_map_sg 合并 相 邻 的 段 ， 可 以 使 用 下 面 的 函数 改变 这 个 默认 的 行为 : 
clear_bit (QUEUE_FLAG_CLUSTER, &queue->queue flags); 


一 些 SCSI 磁 盘 驱 动 程序 使 用 这 个 方法 标志 其 请 求 队列 ， 因 为 它们 不 能 从 合并 请 求 中 获 
得 更 好 的 性 能 。 
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不 使 用 请 求 队列 

前 面 提 到 内 核 会 优化 队列 中 的 请 求 顺序 ， 这 包括 排列 请 求 ， 共 至 可 能 要 停止 某 些 请 求 ， 
以 期 望 某 些 其 他 请 求 的 到 来 。 在 处 理 实际 的 旋转 磁盘 驱动 器 的 时 候 , 这 能 帮助 系统 获得 
最 好 的 性 能 。 但 是 在 处 理 类 似 sbu1 这 样 的 设备 时 , 这 些 优化 过 程 有 些 浪 费 。 许多 面向 块 
数据 的 设备 ， 比 如 flash 内 存 阵列 、 数 字 相机 使 用 的 读 卡 器 、RAM 盘 ， 它 们 都 是 完全 的 
随机 访问 设备 , 并 不 能 从 高 级 请 求 队列 逻辑 中 获 瘟 。 另 外 一 些 设备 , 比如 软件 RAID 组 ， 
或 者 是 逻辑 卷 标 管理 器 创建 的 虚拟 磁盘 ,并 不 具备 块 设备 层 请 求 队列 优化 所 需要 的 性 能 
特点 。 对 于 这 些 设备 , 最 好 还 是 从 块 设备 层 中 直接 接受 请 求 ， 而 不 要 去 打 乱 请 求 队列 的 
好 。 

在 这 些 情况 下 , 块 设备 县 支持 “无 队列 ”模式 的 操作 。 为 了 能 使 用 该 模式 ， 虹 动 程序 必 
须 提供 一 个 “构造 请 求 ” 的 函数 , 而 不 是 一 个 请 求 处 理 函 数 。 下 面 是 构造 请 求 函 数 的 原 
型 : 


typedef int (make_request_fn) (request_queue_t *q, struct bio *bio); 


请 注意 : 虽然 从 不 拥有 一 个 请 求 , 但 是 还 依然 提供 了 一 个 请 求 队列 。make_request 函数 
的 主要 参数 是 bio 结 构 , 它 表 示 了 要 被 传输 的 一 个 或 者 多 个 缓冲 区 。make_request 函 数 
能 够 完成 下 面 的 事情 : 直接 进行 传输 ， 或 者 把 请 求 重 定向 给 其 他 设备 。 


直接 进行 传输 是 利用 前 面 介绍 过 的 方法 , 通过 bio 进 行 传输 。 由 于 没有 request 结构 
进行 操作 , 因此 函数 应 该 能 够 调用 bio_endio, 告诉 bio 结 构 的 创建 者 请 求 的 完成 情况 : 


void bio_endio(lstruct bio *bio, unsigned int bytes, int error); 


这 里 bytes 是 所 要 传输 的 字 节 数 。 它 可 以 比 bio 结构 中 表示 的 字 节 数 小 ; 此 时 可 以 通 
知 “ 部 分 完成 "， 然 后 更 新 bio 结构 中 的 “当前 缓冲 区 ”指针 。 当 设备 需要 再 次 传输 时 ， 
可 以 再 次 调用 bio_endio， 如 果 不 能 完成 这 个 请 求 ， 则 给 出 一 个 错误 。 通 过 给 error 参 
数 赋予 一 个 非 零 的 数 来 表示 错误 ; 这 个 值 通 常 是 诸如 -EIO 这 样 的 错误 码 。 无 论 IO 成 
功 与 否 ，make_request 都 返回 0。 


如 果 使 用 request_moGe 为 2 来 加 载 sbul1， 它 将 使 用 make_request 函数 。 由 于 sbull 
已 经 有 一 个 能 传输 单独 bio 的 函数 了 ， 因 此 make_request 函数 很 简单 : 


static int sbull_make request {request_queue_t *q, struct bio *bio) 
{ 

struct sbull_dev *dev = q->queuedata; 

int status; 


status = sbull xfer_bioldev, bio); 
bio_endio{bio, bio->bi_size, status); 
return 0; 
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请 注意 绝对 不 要 在 普通 的 requesi 函数 中 调用 bio_endio;， 而 要 调用 end_that_request_ 
Jirsr 国 数 。 


一 些 块 设备 驱动 程序 ,比如 那些 实现 了 卷 标 管理 器 和 软件 RAID 组 的 驱 动 程序 , 实际 上 
需要 将 请 求 重 定向 给 其 他 能 处 理 该 请 求 的 设备 。 编 写 这 样 的 程序 已 经 超越 了 本 书 的 范围 。 
这 里 提醒 读者 , 如果 make_reqxwesi 图 数 返 回 了 一 个 非 零 的 值 . bio 将 再 次 被 提交 。 一 个 
“堆积 ”驱动 程序 能 够 修改 bi_bdev 成 员 , 以 指向 不 同 的 设备 , 修改 开始 扇 区 的 值 、 然 
后 返回 。 块 设备 系统 接着 将 bio 传 给 新 设备 。 还 有 一 个 bio_split 函数 ,为 了 把 bio 提 
交 给 多 个 设备 ,这 个 函数 可 将 bio 分 成 若 于 个 的 小 块 。 如 果 queue 参 数 设置 正确 , 则 以 
这 样 的 方式 分 割 bio 几乎 没有 必要 。 


另外 还 必须 告诉 块 设备 子 系统 ,驱动 程序 使 用 定制 的 make_reqguest 函数 。 为 做 到 这 点 ， 
必须 使 用 下 面 的 函数 分 配 一 个 请 求 队列 ; 


request_queue_t *blk_alloc_queuel(lint flags); 


该 久 数 与 blk_init_queue 的 不 同 在 于 它 并 未 真正 的 建立 一 个 保存 请 求 的 队列 。 flags 参 
数 是 一 系列 分 配 标 志 , 用 来 为 队列 分 配 内 存 ; 通常 正确 的 值 是 GFP_KERNEL。 一 旦 拥有 
了 队列 将 它 与 make_request 困 数 传递 给 blk_queue_make_request: 


void blk_queue_ make_request (request_ queue_t *queue, make_request_fn *func); 


sbull 代码 构造 make_request 函数 的 代码 如 下 : 


dev->queue = blk_alloc_queue (GFP KERNEL); 
if (dev->queue = = NULL) 
goto out_vfree; 
blk_queue_make. request (dev->queue, sbull_make_request); 


如 果 好 奇 , 可 以 花 点 时 间 仔 细 看 一 下 drivers/block/ll_rw_block.c, 它 显示 所 有 的 队列 都 
有 make_request 函数 。 在 默认 的 版 本 中 ，generic_make_request 负责 将 bio 合并 到 
request 结构 中 。 通 过 提供 自己 的 make_request 函数 ,驱动 程序 及 可 以 真正 重 载 请 求 
队列 的 方法 ， 并 能 挑选 出 大 部 分 工作 。 


其 他 一 些 细节 


本 一 小 节 包 含 了 关于 块 设备 中 其 他 方面 的 知识 , 对 编写 高 级 驱动 程序 会 有 一 些 帮助 。 编 
写 一 个 正确 的 驱动 程序 ， 用 不 到 下 面 的 内 容 ， 但 是 在 某 些 时 候 ， 它 们 是 有 用 的 。 
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命令 预 处 理 


块 设备 层 为 驱动 程序 在 返回 elv_next_request 前 ， 提 供 了 检查 和 预 处 理 请 求 的 机 制 。 该 
机 制 允 许 驱 动 程序 预先 建立 驱动 器 命令 , 决定 是 否 处 理 该 请 求 , 还 是 予以 其 他 方式 的 处 
理 。 


如 果 想 使 用 这 个 功能 ， 要 按照 下 面 的 原型 建立 命令 预 处 理 函 数 : 


typedef int (prep_rq_fn) (request_queue 上 *queue, struct request *red); 


request 结构 包含 了 一 个 成 员 一 一 cmd, 它 是 一 个 BLK_MAX_CDB 个 字 节 的 数组 ; 预 
处 理 函 数 可 以 使 用 该 数组 保存 实际 的 硬件 命令 (或 者 任何 其 他 有 用 信息 )。 该 函数 要 能 
返回 下 面 的 值 之 一 : 
BLKPREP_OK 

命令 预 处 理 正 常 ， 可 以 发 送 请 求 到 驱动 程序 的 请 求 函数 中 。 
BLKPREP_KILL 

该 请 求 不 能 被 完成 ， 失 败 并 返回 错误 码 。 
BLKPREP_DEFER 

目前 该 请 求 不 能 完成 。 把 它 放 在 队列 的 前 头 ， 但 是 不 传递 给 请 求 函数 。 


在 将 请 求 返 回 给 驱动 程序 前 ，elv_next_request 会 立刻 调用 预 处 理 函 数 。 如 果 该 函数 返 
回 BLKPREP_DEFER, 那么 elv_next_request 返 回 给 驱动 程序 的 值 是 NULL。 这 种 操作 模 
式 很 有 用 ， 比 如 当 设 备 达到 其 能 处 理 的 最 大 请 求 数目 时 。 

为 了 让 块 设备 层 调用 预 处 理 函 数 ， 将 其 传递 给 : 


void blk_queue_prep_rq{lrequest_queue_t *queue, prep_rq_fn *func); 


默认 的 情况 下 ， 请 求 队列 没有 预 处 理 函 数 。 


标记 命令 队列 


同时 拥有 多 个 活动 请 求 的 硬件 通常 支持 某 种 形式 的 标记 命令 队列 (Tagged Command 
Queueing ，TCQ)。TCQ 只 是 为 每 个 请 求 添加 一 个 整数 (标记 ) 的 技术 ， 这 样 当 驱 动 器 
完成 它们 中 的 一 个 请 求 后 , 它 就 可 以 告诉 驱动 程序 完成 的 是 哪个 ,在 以 前 版 本 的 内 核 中 ， 
实现 了 TCQ 的 块 设备 驱动 程序 自己 完成 所 有 的 工作 ; 在 2.6 内 核 中 , 在 块 设备 层 代码 中 
添加 了 一 段 TCQ 支持 的 代码 ， 以 便 所 有 的 驱动 程序 使 用 。 


为 了 让 驱动 器 支持 标记 命令 队列 ， 必 须 在 初始 化 的 时 候 调 用 下 面 的 函数 告诉 内 核 : 
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int blk queue,_init_tags (request_queue_t *queue, int depth, 
struct blk_ queue_tag *tags); 


这 里 , queue 是 请 求 队列 , depth 是 在 任何 时 刻 设备 所 支持 的 未 完成 标记 请 求 的 个 数 。 
tag 是 个 可 选 的 指针 ， 指 向 一 个 blk_queue_tag 结构 数组 ; 它 必须 有 depth 个 。 通 
常 传递 的 标记 可 以 是 NULL, blk_queue_init_tags 负 责 分 配 数 组 .如果 要 在 多 个 设备 之 间 
共享 标记 ,可 以 从 另外 一 个 请 求 队列 中 传递 标记 数组 指针 (保存 在 aueue_tags 成 员 中 )。 
绝对 不 要 自己 分 配 标记 数组 ; 块 设备 层 需 要 初始 化 数组 ,并且 不 向 模块 提供 初始 化 函数 。 


由 于 blk_queue_init_tags 分 配 内 存 ,， 因此 它 可 能 会 失败 。 如 果 失 败 , 它 将 返回 负 的 错误 
码 给 调用 者 。 
如 果 设 备 能 处 理 的 标记 数量 发 生 了 变化 ， 可 以 用 下 面 的 函数 通知 内 核 : 


int blk_queue_resize_tags (request_queue_t *queue, int new_depth); 
在 调用 过 程 中 ， 必 须 锁 住 队 列 锁 。 该 调用 可 能 失败 ， 车 失败 则 返回 负 的 错误 码 。 
使 用 blk_queue_start_tag 将 一 个 标记 与 一 个 请 求 相 关联 ， 调 用 该 函数 时 必须 锁 住 队 列 
锁 : 

int blk_queue start_tag (request_queue_t *queue, struct request *reG) 1; 
如 果 一 个 标记 可 用 , 则 该 函数 为 请 求 分 配 该 标记 , 把 标记 编号 保存 在 req->tag 里 , 然 
后 返回 0。 它 还 把 请 求 清除 出 队列 , 并 把 所 清除 的 请 求 连接 到 自己 的 标记 跟踪 结构 中 , 因 
此 ,驱动 程序 一 定 要 小 心 ,如 果 正 在 使 用 标记 ,就 不 能 把 请 求 清除 出 队列 。 如 果 没 有 可 
用 的 标记 ，blk_queue_start_tag 把 请 求 放 在 队列 中 然后 返回 一 个 非 零 值 。 
当 一 个 指定 请 求 的 全 部 数据 传输 完毕 后 ， 驱 动 程序 使 用 下 面 的 函数 返回 标记 : 

void blk_queue_enq_tag {request_queue_t *queue, struct request *reqg); 
再 次 强调 ， 在 调用 该 久 数 前 必须 锁 住 队列 锁 。 当 end_that_request_first 返 回 0 (表示 请 


求 完成 ), 并 在 调用 end_that_request_last 前 , 调用 该 函数 。 请 记 住 请 求 已 经 被 清除 出 队 
列 ， 因 此 在 此 时 驱动 程序 做 这 件 事 是 错误 的 。 


如 果 要 为 指定 的 标记 找到 相应 的 请 求 (比如 驱动 程序 报告 请 求 完成 )， 使 用 blk_gqueue_ 
find_tag 图 数 : 


struct request *blk_queue_ find tag(request queue_t *qeue, int tag}; 


返回 值 是 相应 的 request 结构 ， 如 果 不 是 则 表明 有 错误 产生 。 
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如 果 发 生 了 错误 , 驱动 程序 可 能 不 得 不 重新 置 位 , 或 者 执行 其 他 一 些 操作 对 其 控制 的 设 
备 强制 纠 错 。 在 这 种 情况 下 , 任何 未 完成 标记 的 命令 都 不 能 被 执行 。 块 设备 层 提 供 了 一 
个 函数 ， 可 以 在 这 种 情况 下 帮助 恢复 : 


void blk_queue_invalidate tags (request queue t *queue); 


该 函数 返回 所 有 的 未 执行 的 标记 给 缓冲 池 , 并 且 把 相应 的 请 求 发 还 给 请 求 队列 。 当 调用 
该 函数 时 ， 必 须 锁 住 队列 锁 。 


快速 参考 
#include <linux/fs.h> 
int register blkdev (unsigned int major, const char *name); 
int unregister_blkdev{unsigned int major, const char *name); 
register_blkdev 用 来 向 内 核 注册 一 个 块 设备 驱动 程序 , 还 可 获得 主 设备 号 。 一 个 驱 
动 程序 可 以 使 用 unregister_blkdev 函数 注销 。 
struct block_device_operations 
用 来 保存 块 设备 驱动 程序 大 多 数 方法 的 数据 结构 。 
#include <linux/genhd.h> 
struct gendisk; 
用 来 描述 内 核 中 单个 块 设备 的 结构 。 
struct gendisk *alloc_ disk(int minors); 
void add disk(struct gendisk *gd); 
用 来 分 配 gendisk 结构 并 将 其 返回 给 系统 的 函数 。 
void set_capacity{struct gendisk *gd, sector_t sectors); 


在 gendisk 结构 中 保存 设备 容量 (用 512 字 节 扇 区 为 单位 )。 
void add disk(struct gendisk *gd); 
向 内 核 添 加 一 个 磁盘 。 一 旦 调用 了 该 函数 ， 内 核 就 能 调用 磁盘 方法 了 。 
int check_disk change{struct block_device *bdev); 
用 来 对 指定 磁盘 驱动 器 进行 介质 变化 检查 的 内 核 函 数 , 当 介质 改变 被 侦 测 到 后 , 采 
取 必 要 的 清除 动作 。 
#include <linux/blkdev.h> 
request_ queue _t blk_init_queue (request_fn_proc *request, spinlock_t *lock); 
void blk_cleanup_queue (request_queue_t *);，; 


用 来 创建 和 删除 块 设备 请 求 队列 的 函数 。 
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struct request *elv_next_request (request_queue t *queue); 

void end request{struct request *req, int success); 
elv_next_request 获 得 请 求 队列 中 的 下 一 个 请 求 ; end_request 用 在 简单 的 驱动 程序 
中 ， 以 完成 (或 部 分 完成 ) 一 个 请 求 。 


void blkdev dequeue request (Struct request *req),; 

void elv_requeue_request (request_queue t *queue, struct request *req); 
从 队列 中 删除 一 个 请 求 的 函数 ， 如 果 需 要 ， 还 可 以 把 该 请 求 放 回 队列 。 

void blk._stop_queue{(request queue _t *queue}); 

void blk_start_queue(request_ queue_t *queue); 
如 果 不 想 让 自己 的 请 求 函数 被 调用 , blk_stop_queue 可 以 做 到 这 点 。 为 了 能 使 请 求 
函数 被 调用 ， 必 须 调用 bik_start_queue 的 函数 。 


void blk_queue_bounce_ limit (request_queue._t *queue, u64 dma_addr); 
void blk_queue_max_sectors (request_queue_t *queue, unsigned Short max); 
void blk_queue max_phys_segments (request. queue t *queue, unsigned short max); 
void blk_queue max_hw_ segments (reguest_cueue t *queue, unsigned short max); 
void blk_queue max_segment_size (request._ queue_t *queue, unsigned int max); 
blk_queue_segment_boundary (request_queue _t *queue, unsigned long mask}; 
void blk_qgqueue dma alignment (request_queue_t *queue, int mask); 
void blk_queue hardsect_size(request_queue t *queue, nsigned short IaX) ; 
用 来 设置 队列 参数 的 函数 。 这些 参 数控 制 了 对 一 个 特定 设备 请 求 的 创建 。 参 数 的 具 
体 解 释 在 “队列 控制 函数 ”一 节 。 


#include <linux/bio.h> 
struct bio; 


表示 部 分 块 设备 IO 请 求 的 底层 结构 。 


bio_sectors (Stzruct bio *bio); 
bio data_dirl(struct bio *bio); 
这 两 个 宏 用 来 获得 bio 结构 描述 的 大 小 和 传输 方向 。 
bio_for_each_segment (bvec, bio, segno); 
用 来 遍历 组 成 bio 结构 的 段 的 伪 控 制 结构 。 
char *__bio kmap_atomic(struct bio *bio, int i, enum km _ type type); 
void __bio, kunmap_atomic (char *buffer, enum km type type); 
_bio_kmap_atomic 用 来 为 Dio 结构 中 指定 的 段 创 建 内 核 虚 拟 地 址 。 取消 该 映射 必 
须 使 用 __bio_kunmap_atomic。 
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struct page *bio_page(struct bio *bio); 

int bio_offsetl(struct bio *bio); 

int bio_cur_sectors{(struct bio *bio); 

char *bio data(lstruct bio *bio); 

char *bio_kmap_irqgq(lstruct bio *bio, unsigned long *flags); 

void bio_kunmap_irgq(char *buffer, unsigned long *flags); 
这 是 一 组 访问 宏 ， 用 来 访问 bio 结构 中 的 “当前 ” 段 。 

void blk_queue_ordered(request_queue_t *queue, int flag); 

int blk_barrier_rq{struct request *req); 
如 果 驱 动 程序 实现 了 屏障 请 求 ， 则 调用 blk_queue_ordered。 如 果 当 前 请 求 是 一 个 
屏障 请 求 ， 则 宏 blk_barrier_rq 返回 非 零 值 。 

int blk_noretry_request (struct request *req}; 


该 宏 返 回 非 零 值 表示 指定 的 请 求 因 错 误 不 能 再 次 被 执行 。 


int end_that_request_first {struct request *reg, int success, int count); 
void end_that_request_last(struct request *reqg); 
使 用 end_that_request_first 表 示 完 成 一 个 块 设备 IO 请 求 的 过 程 。 如 果 该 函数 返回 
0， 则 表示 请 求 已 经 完成 ， 应 该 被 传递 给 end_that_request_iast。 
rq_for_each_bio{bio, request) 
另外 一 个 以 宏 的 形式 实现 的 控制 结构 ， 它 将 遍历 请 求 中 的 每 个 bio 结构 。 
int blk_rq map_sg(request_queue_t *queue, struct request *redq, struct 


scatterlist *list); 


为 DMA 传 输 , 需要 将 缓冲 区 映射 到 指定 的 request 中 , 使 用 这 些 信息 填充 分 散 表 。 


typedef int (make_request_fn) (request_queue_t *q, struct bio *bio); 
make_request 范 数 的 原型 。 


void bio_endio(struct bio *bio, unsigned int bytes, int error); 
指定 的 bio 结构 的 信和 号 完成 函数 。 只 有 当 驱 动 程序 通过 make_request 消 数 直接 从 
块 设备 层 获 得 bio 结构 时 ， 才 使 用 该 函数 。 


request_queue_t xblk_alloc_cueue(int flags)}; 

void blk_queue make_request (recuest_queue 上 *queue, make_reqguest_fn *func); 
使 用 blk_alloc_queue 来 分 配 一 个 请 求 队列 , 以 便 为 用 户 定义 的 make_request 函数 
所 使 用 。 该 函数 要 用 blK_queue_make_request 设置 。 
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typedef int (prep_rq_ fn) (request_queue t *queue, struct request *req); 

void blk. queue_prep_rqlrequest_queue t *queue, prep_rqg fn *func); 
命令 预 处 理 函 数 的 原型 和 设置 , 它 可 以 在 请 求 传递 到 请 求 处 理 函 数 前 , 为 硬件 准备 
需要 的 命令 。 

int blk_queue_init_tags (request_queue_t *queue, int depth, struct 

blk_queue tag *tags); 

int blk_queue_resize tags (request_queue_t *queue, int new_depth); 

int blk_queue_ start_tag (zequest_queue _t *queue, struct request *req); 

void blk_queue end tag(request_queue t *queue, struct request *req); 

struct request *blk_queue_find tag{request_queue_t *qeue, int tag); 

void blk_queue_invalidate_tags (request_queue_t *queue); 


为 了 让 驱动 程序 使 用 标记 命令 队列 而 提供 的 支持 函数 。 


第 十 七 章 


网 络 驱动 程序 








在 讨论 完 字符 设备 和 块 设备 驱动 程序 之 后 , 是 到 进入 网 络 世界 的 时 候 了 。 网 络 接口 是 第 
= 类 标准 Linux 设备 ， 本 章 将 描述 网 络 接口 是 如 何 与 内 核 其 余 的 部 分 交互 的 。 


在 已 挂 装 磁盘 和 数据 包 发 送 接口 之 间 , 还 是 存在 着 许多 重要 的 不 同 之 处 。 首 先 ,一 个 磁 
盘 在 /dev 目 录 下 作为 一 个 特殊 文件 而 存在 , 而 网 络 接口 却 没有 这 样 的 入 口 点 。 对 网 络 接 
的 常用 文件 操作 ( 读 、 写 等 ) 是 没有 意义 的 , 因此 在 它们 身上 无 法 体现 Unix 的 “一 切 
都 是 文件 ”的 思想 . 这 样 , 网 络 接口 存在 于 它们 自己 的 名 字 空 间 中 ,并 导出 一 系列 不 同 
的 操作 。 


然而 读者 可 能 发 现 ， 当 应 用 程序 使 用 套 接 字 (socket) 的 时 候 ， 依然 使 用 read、write 系 
统 调用 ,但 是 这 些 调用 作用 于 软件 对 象 上 ,它们 与 网 络 接口 完全 不 同 。 在 同一 个 物理 接 
口上 可 能 存在 几 百 个 多 工 的 套 接 字 。 


但 是 这 两 种 设备 之 间 最 重要 的 不 同 是 : 块 设备 只 响应 来 自 内 核 的 请 求 , 而 网 络 驱 动 程序 
异步 地 接收 来 自 外 部 世界 的 数据 包 。 因 此 当 内 核 要 求 一 个 块 设备 驱动 程序 向 其 发 送 缓 冲 
区 数据 时 ， 而 网 络 设备 则 向 内 核 请 求 把 从 外 部 获得 的 数据 包 发 送 给 内 核 。 内 核 中 的 网 络 
驱动 程序 接口 是 为 不 同 模式 的 操作 而 精心 设计 的 。 


网 络 驱 动 程序 还 将 准备 支持 大 量 的 管理 任务 , 比如 设置 地 址 、 修 改 传输 参数 ,以 及 维护 
流量 和 错误 统计 。 网 络 驱动 程序 的 API 反 映 了 这 一 需求 , 这 使 得 它 看 起 来 与 前 面 讲述 的 
驱动 接口 有 所 不 同 。 


Linux 内 核 中 的 网 络 子 系统 被 设计 成 完全 与 协议 无 关 。 该 思想 应 用 于 网 络 协议 (IP、IPX 
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及 其 他 协议 ) 和 硬件 协议 中 (以 态 网 、 令 牌 环 等 )。 内核 与 网 络 驱 动 程序 之 闻 的 交互 ,可 
能 每 次 处 理 的 是 一 个 网 络 数据 包 ; 协议 隐藏 在 驱动 程序 之 后 , 同时 物理 传输 又 被 隐藏 在 
协议 之 后 。 


本 章 将 讲述 网 络 接口 是 如 何 服务 于 Linux 内 核 的 其 余部 分 的 , 同时 提供 一 个 基于 内 存 的 
模块 化 接口 实例 一 一 snull。 为 了 简化 讨论 , 该 接口 使 用 了 以 态 网 硬件 协议 并 传输 IP 数 
据 包 。 从 例子 snull 中 获得 的 知识 ， 可 以 应 用 于 其 他 非 IP 协 议 , 并 且 在 非 以 坊 网 驱动 程 
序 的 编写 中 ， 仅 在 与 实际 网 络 协议 相关 的 细节 中 存在 微小 差异 。 


本 章 不 会 论 及 IP 地 址 编号 方式 、 网络 协议 或 者 其 他 一 般 性 的 网 络 概念 。 这 些 内 容 通 常 不 
是 驱动 程序 编写 者 所 关心 的 , 而 用 不 到 一 百 页 的 篇 幅 对 网 络 技术 进行 描述 , 不 可 能 达到 
令 人 满意 的 效果 。 对 此 感 兴趣 的 读者 可 以 参阅 其 他 描述 网 络 技术 的 书籍 。 


在 讲述 网 络 设备 前 , 首先 讲 一 个 术语 。 在 网 络 世界 中 使 用 术语 “octet” 指 一 组 8 个 的 数 
据 位 ， 它 是 能 为 网 络 设备 和 协议 所 能 理解 的 最 小 单位 。 在 本 章 中 基本 不 会 使 用 术语 “ 字 
告 (byte)”。 为 了 保持 使 用 的 标准 性 ， 在 讲述 网 络 设备 时 使 用 术语 “octet”。 


术语 “协议 头 (header)” 也 将 很 快 被 提起 。 协 议 头 是 在 数据 包 中 的 一 系列 字 节 ( 错 了 ， 
应 该 是 octet), 它 将 通过 网 络 子 系统 的 不 同 层 。 当 一 个 应 用 程序 通过 TCP 套 接 字 发 送 一 
块 数据 时 , 网 络 子 系统 将 把 数据 块 分 割 成 若干 数据 包 , 并 在 数据 包 开 头 加 入 用 来 描述 数 
据 流 类 型 的 TCP 协议 头 。 下 层 协议 将 在 TCP 协议 头 前 接着 添加 IP 协 议 头 ， 用 来 指定 数 
据 包 达 到 目的 地 址 的 路 径 。 如 果 数 据 包 通 过 类 以 态 网 媒介 , 将 继续 在 数据 包 前 加 入 以 态 
网 头 ， 其 包含 的 信息 将 由 硬件 来 解释 。 网 络 驱动 程序 通常 不 必 关 心 高 层 协议 的 协议 头 ， 
但 是 它们 必须 负责 创建 硬件 层 的 协议 头 。 


snull 设计 


这 一 小 节 讨 论 设计 smzl 网 络 接口 的 一 些 概念 。 尽管 这 些 概 念 适合 在 页 边 上 做 注脚 用 , 但 
如 果 不 能 理解 它们 ， 在 使 用 示例 代码 时 会 遇 到 麻烦 。 


首先 , 也 是 最 重要 的 设计 决策 是 : 示例 接口 仍然 不 依赖 于 任何 硬件 , 这 与 本 书 中 的 示例 
代码 相同 。 该 限制 使 接口 有 点 像 回 环 (loopback ) 接口 。 但 snull 不 是 一 个 回环 接口 , 它 
模拟 了 和 远程 主机 的 会 话 ， 从 而 更 好 的 展示 网 络 驱动 程序 的 编写 。Linux 回环 驱动 程序 
其 实 非 常 简 单 ，drivers/net/loopback.c 就 是 很 好 的 例子 。 


snull 的 另外 一 个 特点 是 它 只 支持 IP 流 。 这 是 该 接口 的 内 部 工作 方式 所 决定 的 一 一 为 
了 正确 模拟 一 对 硬件 接口 , snul! 必 须 观察 并 解释 数据 包 。 实际 的 接口 不 会 依赖 于 被 传输 
的 协议 ， 而 snull 的 这 一 限制 也 不 会 影响 本 章 所 描述 的 代码 片段 。 
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分 配 1P 号 


snull 模 块 创建 了 两 个 接口 。 这 些 接口 与 简单 的 回环 设备 不 同 , 通过 其 中 一 个 接口 传输 的 
任何 数据 , 都 将 出 现在 另外 一 个 接口 上 , 而 不 是 第 一 个 接口 本 身 。 这 就 好 像 用 户 有 两 个 
外 部 链 路 ， 但 实际 上 计算 机 只 对 自身 做 出 响应 。 


但 不 幸 的 是 ， 只 分 配 一 个 IP 号 是 不 能 实现 该 效果 的 ， 因 为 如 果 接 口 A 指向 的 是 接口 B、 
那么 内 核 不 能 通过 接口 A 发 送 数据 。 相反 内 核 将 使 用 回环 通道 而 不 会 通过 snul1。 为 了 能 
通过 snul! 接 口 建立 通信 , 在 传输 过 程 中 需要 修改 源 及 目的 地 址 。 换 句 话说 , 通过 某 一 个 
接口 发 送出 的 数据 包 应 该 被 另外 一 个 接口 接收 ,但 是 不 能 将 外 发 数据 包 的 接收 者 认为 是 
本 机 。 同 样 的 规则 也 应 该 应 用 于 已 接收 数据 包 的 源 地 址 。 


为 了 实现 这 种 “隐藏 的 回环 ”设备 ，snul! 接口 切换 源 地 址 和 目标 地 址 的 第 三 个 octet 的 
最 低位 ; 也 就 是 说 , 它 修改 了 C 类 IP 号 的 网 络 编号 和 主机 编号 。 其 效果 是 , 发 送 到 网 络 
A (连接 到 sn0， 即 第 一 个 接口 ) 的 数据 包 ， 将 在 属于 网 络 B 的 sn1 接口 上 出 现 。 


为 避免 涉及 太 多 的 数字 ， 赋 予 相 关 的 IP 号 一 些 符号 名 : 


。 ”snullnet0 是 连接 到 sn0 接口 的 C 类 网 络 。 类 似 地 ，snullnet1 是 连接 到 sn1 的 
网 络 。 上 述 网 络 地 址 仅仅 在 第 三 个 octet 的 最 低位 有 差别 。 这 些 网 络 必 须 拥 有 24 位 
的 子 网 掩 码 。 


。 local0 是 赋予 sn0 接口 的 IP 地 址 ,， 它 属 于 snullnet0。 和 sn1 关联 的 地 址 是 
locall。1loca10 和 1locall 必须 在 第 三 和 第 四 个 octet 的 最 低位 上 不 同 。 


。 remote0 是 snullnet0 网 络 中 的 一 个 主机 ， 它 的 第 四 个 octet 和 1locall 相同 。 
发 送 到 remote0 的 任意 数据 包 将 在 接口 代码 修改 了 其 网 络 类 地 址 之 后 ， 到 达 
local1。remotel 属于 snullnet1， 它 的 第 四 个 octet 和 1ocal0 一 样 。 


snull 接口 的 操作 在 图 17-1 中 描述 ， 其 中 与 每 个 接口 关联 的 主机 名 打印 在 该 接口 名 的 旁 
边 。 


下 面 是 一 些 满足 上 述 要 求 的 可 能 网 络 编号 。 将 这 两 行 放 入 /etc/netrworks 文 件 之 后 , 就 可 
以 用 名 字 来 指 代 网 络 。 这 些 网 络 编号 值 选 择 自 非 正式 使 用 的 IP 号 范围 。 


snullnet0 192.168.0.0 
snullnetl 192.168.1.0 


下 面 是 可 加 入 到 /etc/hosts 的 可 能 主机 IP 号 : 


192.168.0.1 local0 
192.168.0.2 remote0 
192.168.1.2 locall 
192.168.1,.1 remotel 
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图 17-1: 主机 和 接口 的 关系 


上 述 编号 一 个 重要 特点 是 , 10ca10 的 主机 部 分 和 remotel 的 主机 部 分 一 样 , 而 1ocal1 
的 主机 部 分 ， 和 remote0 的 主机 部 分 一 样 。 只 要 满足 上 述 关 系 ， 读 者 就 可 以 选择 一 组 
完全 不 同 的 网 络 号 和 主机 号 。 


如 果 计 算 机 已 经 连 入 一 个 实际 的 网 络 ， 就 需要 小 心 了 。 用 户 所 选择 的 编号 可 能 是 实际 
Internet 或 intranet 的 IP 号 , 将 这 些 编号 赋予 自己 的 接口 ,将 导致 无 法 和 实际 主机 通信 。 
例如 ， 尽管 上 述 编号 并 不 是 可 路 由 的 Internet 编 号 , 但 可 能 已 经 在 防火 墙 之 后 的 内 部 私 
有 网 络 当中 使 用 。 


不 管 选 择 什么 地 址 编号 ， 可 通过 如 下 命令 设置 接口 : 


ifconfig sn0 local0 
ifconfig snl locall 


如 果 地 址 选择 的 范围 并 不 是 C 类 地 址 ， 那 么 需要 添加 子 网 掩 码 255.255.255.0。 


至 此 , 就 可 到 达 接 口 的 “远程 ” 端 。 下 面 给 出 的 屏幕 输出 说 明了 主机 是 如 何 通 过 snull 接 
口 到 达 remote0 和 remotel 的 。 


morganag ping -c 2 remote0 

64 bytes from 192.168.0.99: icmp_seq=0 tt1=64 time=1.6 ms 
64 bytes from 192.168.0.99: icmp_seq=1 ttl=64 time=0.9 ms 
2 packets transmitted, 2 packets received, 0% packet loss 
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morgana%®s ping -C 2 remotel 

64 bytes from 192.168.1.88: icmp_seq=0 ttl=64 time=1.8 ms 
64 bytes from 192.168.1.88: icmp_seq=1 ttl=64 time=0.9 ms 
2 packets transmitted, 2 packets received, 0% packet loss 


注意 ,我 们 无 法 到 达 属于 这 两 个 网 络 的 任意 其 他 “主机 "， 这 是 因为 当地 址 被 修改 且 数 
据 包 被 接收 到 时 ,计算机 就 会 将 该 数据 包 丢 弃 。 比 如 , 离开 sn0 发 送 到 192.168.0.32 的 
数据 包 , 将 重新 出 现在 sn1 接口 , 但 目标 地 址 已 修改 成 为 192.168.1.32, 这 并 不 是 主机 
的 本 地 地 址 。 


数据 包 的 物理 传输 


对 数据 传输 而 言 ，snull 接口 属于 以 太 网 类 型 。 


snul1 模 拟 以 太 网 是 因为 大 量 已 有 的 网 络 (至 少 一 台 工作 站 连接 到 的 网 段 ) 基于 以 太 网 技 
术 ，, 比如 10baseT、100baseT 或 者 千 兆 以 太 网 等 等 。 另外， 内 核 为 以 太 网 设备 提供 了 一 
些 通用 支持 ， 没 有 理由 不 利用 这 些 通 用 的 支持 。 成 为 一 个 以 太 网 设备 的 优点 如 此 出 众 ， 
以 至 于 plip 接口 (使 用 打印 机 端口 的 接口 ) 也 将 自己 声明 为 一 个 以 太 网 设备 。 


对 snull 来 说 , 使 用 以 太 网 的 最 后 一 个 优点 是 可 以 在 该 接口 上 运行 :cpdump 看 到 数据 包 的 
传输 情况 。 利 用 tcpdump 观察 接口 ， 是 一 种 了 解 这 两 个 接口 工作 情况 的 便捷 途径 。 


先前 曾 提 到 ，snul! 只 能 利用 IP 数 据 包 。 这 一 限制 源 于 如 下 事实 : 为 了 让 示例 代码 能 正 
常 工作 ,snull 需 要 监听 数据 包 ， 甚至 修改 数据 包 。 代 码 要 修改 每 个 数据 包 IP 头 中 的 源 、 
目标 以 及 校 验 和 , 但 不 会 检查 数据 包 是 否 真正 传送 IP 信 息 。 这 种 “快速 而 恶劣 的 ” 数据 
修改 ,会 破坏 非 1P 数 据 包 。 如 果 读 者 希望 通过 snul! 传送 其 他 协议 ， 则 需要 修改 模块 源 
代码 。 


连接 到 内 核 


下 面 开 始 介绍 snull 的 源 代码 , 并 开始 分 析 网 络 驱动 程序 的 结构 。 如 果 手 头 有 若干 个 实际 
驱动 程序 的 源 代 码 ， 则 能 帮助 读者 跟 上 本 章 的 讨论 ， 并 看 到 真实 世界 中 ，Linux 网 络 驱 
动 程序 的 工作 情况 。 为 此 , 推荐 读者 首先 阅读 ioopback.c、plip.c 和 e100.c, 这 些 驱动 程 
序 的 复杂 性 是 逐渐 递增 的 。 上 述 这 些 文件 均 保存 在 内 核 源 代码 树 的 drivers/net 目录 中 。 


设备 注册 
当 一 个 模块 被 装载 到 正在 运行 的 内 核 中 时 , 它 要 请 求 资源 并 提供 一 些 功能 设施 ,这 点 上 ， 
网 络 驱 动 程序 也 一 样 , 而 且 在 资源 请 求 的 方式 上 也 没有 任何 不 同 。 驱 动 程序 要 按照 第 十 
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章 “ 安 装 中 断 处 理 例 程 ” 中 讲 到 的 方法 探测 其 设备 和 硬件 位 置 (IO 端口 及 IRQ 线 ), 但 
不 需要 进行 注册 。 网络 驱动 程序 在 其 模块 初始 化 函数 中 的 注册 方法 , 和 字符 驱动 程序 及 
块 驱 动 程序 不 同 。 因 为 对 网 络 接口 来 讲 , 没有 和 主 设备 号 及 次 设备 号 等 价 的 东西 ， 所 以 
网 络 驱动 程序 不 必 请 求 这 种 设备 号 。 相反， 驱动 程序 对 每 个 新 检测 到 的 接口 , 向 全 局 的 
网 络 设备 链表 中 插入 一 个 数据 结构 。 


每 个 接口 由 一 个 net_device 结构 描述 ， 其 定义 在 <linux/netdevice.h> 中 。snull 在 一 
个 数组 中 保存 了 两 个 指向 该 结构 的 指针 (sn0 和 sn1): 


struct net_ device *snull devs[2]; 


和 其 他 所 有 内 核 数据 结构 一 样 ，net_device 包 含 了 一 个 kobject 和 引用 计数 , 并 且 通 
过 sysfs 导出 信息 。 由 于 与 其 他 结构 相关 ， 因 此 它 必 须 被 动态 分 配 。 用 来 执行 分 配 的 内 
核 函 数 是 elloc_netdev， 它 有 着 如 下 的 原型 : 

struct net_device *alloc_netdev(int sizeof priv, 


const char *name, 
void (*setup) (struct net_device *)); 


这 里 sizeof_priv 是 驱动 程序 的 “私有 数据 ”区 的 大 小 ; 这 个 区 成 员 和 net_device 结 
构 一 同 分 配给 网 络 设备 。 实 际 上 上 , 它们 都 处 于 ~- 大 块 内 存 中 , 但 是 驱动 程序 作者 不 需要 
知道 这 些 。name 是 接口 的 名 字 ， 其 在 用 户 空 间 可 见 ; 这 个 名 字 可 以 使 用 类 似 printf 中 
%G 的 格式 ， 内核 将 用 下 一 个 可 用 的 接口 号 替代 %9。 最 后 ，setup 是 一 个 初始 化 函数 ， 
用 来 设置 net_daevice 结构 剩余 的 部 分 。 不 久 将 会 讨论 初始 化 函数 ， 但 是 现在 已 经 知 
道 snull 用 下 面 的 代码 分 配 它 的 两 个 设备 结构 : 
snull_devs[0] = alloc_netdev (sizeof (struct snull priv}, *sn%d", 
snull_init); 
snull devs[1)] = alloc netdev (sizeof (struct snull_priv), "sn%d", 
snull_init); 


if (snull_Gevs[0] = = NULL || snull_devs[1] = = NULL) 
goto out; 


必须 要 检查 函数 的 返回 值 ， 以 确定 分 配 工作 成 功 完成 。 
网 络 子 系统 针对 alloc_netdev 函数 ， 为 不 同 种 类 的 接口 封装 了 许多 函数 。 最 常用 的 是 
alloc_etherdev， 它 在 <linux/etherdevice.h> 中 定义 : 


struct net_device *alloc_etherdev(int sizeof priv); 


该 函数 使 用 ethsa 的 形式 指定 分 配给 网 络 设备 的 名 字 。 它 提供 了 自己 的 初始 化 函数 
(ether_setup)， 用 正确 的 值 为 以 态 网 设备 设置 net_device 中 的 许多 成 员 。 因 此 在 驱 
动 程序 中 没有 为 alioc_etherdev 提 供 初 始 化 函数 ; 驱动 程序 只 是 在 成 功 分 配 “ 私 有 数据 ” 


网 络 驱动 程序 497 





区 后 , 直接 做 一 些 必 须 的 初始 化 工作 。 其 他 类 型 设备 的 虹 动 程序 作者 也 许 要 使 用 其 他 的 
封装 函数 ， 比 如 为 光纤 通道 设备 使 用 alioc_fcdev (在 <linux/fcdevice.h> 中 定义 ) 函数 ， 
为 FDDI 设备 使 用 alioc_fddidev (在 <linux/fddidevice.h> 中 定义 ) 函数 , 或 者 为 令 牌 环 
设备 使 用 alioc_trdev (在 <linux/trdevice.h> 中 定义 ) 明 数 。 


使 用 alloc_erherdev 函数 ，snull 不 会 遇 到 任何 麻烦 ; 但 是 这 里 却 要 使 用 alloc_netdev 力 
数 。 其 目的 是 揭示 如 何 使 用 底层 接口 ， 以 及 如 何 控 制 分 配给 接口 的 名 字 。 


一 旦 net_device 结 构 被 初始 化 后 , 剩余 的 工作 就 是 将 该 结构 传递 给 register_nerdev 函 数 。 
在 snull 中 ， 实 现 该 过 程 的 代码 如 下 : 
OECD 
if ((result = register_netdev{(snull_devs[i]))) 


printk("snull: error %i registering device \"%s\"\n", 
result, snull_devs[i]->name); 


需要 注意 的 是 : 当 调 用 register_netdev 函数 后 ,就 可 以 调用 驱动 程序 操作 设备 了 。 因 此 
必须 在 初始 化 一 切 事情 后 再 注册 。 


初始 化 每 个 设备 

读者 已 经 知道 了 分 配 和 注册 net_Gevice 结 构 , 但 是 刚才 并 没 提 到 紧 接 着 的 下 一 步 : 完 
全 初始 化 这 个 结构 。 请 注意 ， 在 运行 时 ，net_device 结 构 总 是 被 聚集 在 一 起 的 ; 不 能 
像 处 理 file_operations 和 block_device_operations 结 构 那 样 在 编译 时 进行 初始 化 。 
在 调用 register_netdev 前 , 初始 化 必须 完成 。net_device 结 构 既 大 又 复杂 ; 但 幸运 的 
是 , 内 核 在 ether_setup 函数 (被 alloc_etherdev 调 用 ) 中 为 这 个 结构 设置 了 许多 默认 值 。 


由 于 snul! 使 用 了 alloc_netdey, 因此 它 有 独立 的 初始 化 函数 。 下面 是 该 函数 (snull_init) 
的 核心 部 分 : 
ether_setup{dev); /* 对 其 中 一 些 成 员 赋 值 */ 


snull_open; 

snull_ release; 

snull_ config; 
snull_tx; 
snull_ioctl; 
snull_stats; 
snull_rebuild header; 


dev->open 

Gev->stop 
dev->set_config 
dev->hard_start_xmit 
dev->do_ioctl 
dev->get_stats 
dev->rebuild header 
dev->hard_header snull_header; 
dev->tx_timeout snull_ tx_timeout; 
dev->watchdog_timeo = timeout; 

/* 保持 默认 的 标志 ， 只 是 添加 了 NOARP 而 已 */ 
dev->flags |= IFF_NOARP:; 
dev->features |= NETIF_F_NO_CSUM; 
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dev->hard header_cache = NULDL; 


/* 禁止 缓存 */ 


上 面 的 代码 是 一 个 非常 普通 的 初始 化 net_device 结 构 的 例 程 ; 它 主要 是 用 来 保存 大 量 
指向 蝶 动 程序 函数 的 指针 。 这 段 代码 唯 一 不 同 寻 常 的 地 方 是 设置 flags 为 IFF_NOARP。 
这 表明 接口 不 能 使 用 地 址 解析 协议 (Address Resolution Protocol，ARP)。ARP 是 以 太 
网 的 底层 协议 ; 它 的 作用 是 将 IP 地 址 转换 为 以 太 网 的 MAC (medium access control， 
介质 访问 控制 ) 地 址 。 由 于 snul! 模 拟 的 “远程 ”系统 根本 是 不 存在 的 , 因此 没有 必要 应 
答 从 那里 发 来 的 ARP 请 求 。snul! 使 用 另外 的 ARP 实现 会 使 代码 复杂 化 ， 因 此 在 这 里 将 
接口 标记 为 不 能 处 理 ARP 协 议 。 将 hard_header_cache 设 置 为 NULL 也 是 出 于 类 似 
的 原因 : 在 这 个 接口 中 禁止 对 ARP 的 缓存 (由 于 根本 不 存在 )。 这 个 主题 将 在 本 章 后 面 
的 “MAC 地 址 解析 ”中 详细 讨论 。 


初始 化 代码 还 设置 了 一 些 用 来 处 理 传输 超时 的 成 员 (tx_timeout 和 watchdog_timeo)。 
在 本 章 后 面 的 “传输 超时 ”一 节 中 ， 将 完整 介绍 相关 内 容 。 


这 里 需要 对 net_device 结 构 的 一 个 成 员 一 一 priv 作 进一步 解释 。 该 成 员 的 作用 和 
字符 驱动 程序 中 private_qdata 指针 的 作用 类 似 。 但 和 fops->private_data 不 同 ， 
priv 指 针 是 与 net_device 结 构 一 起 分 配 的 。 出 于 性 能 和 灵活 性 方面 的 考虑 , 不 鼓励 
直接 访问 priv 成 员 。 当 驱动 程序 需要 访问 私有 数据 指针 时 ， 应 当 使 用 netdev_priv 国 
数 。 因 此 snul! 驱动 程序 中 充满 了 类 似 以 下 代码 的 声明 : 


struct snull_priv *priv = netdev_priv(dev); 


snull 驱动 程序 为 priv 成 员 声 明了 snul1._priv 数据 结构 : 


struct snull priv { 
struct net_device_stats stats; 
int status; 
struct snull_packet *ppool; 
struct snull_packet *rx_queue; /* 输入 数据 包 链 表 */ 
int rx_int_enabled; 
int tx_packetlen; 
u8 *tx_packetdata; 
struct sk_buff *skb; 
spinlock_t lock; 

}; 


这 个 结构 包含 了 一 个 net_device_stats 结 构 的 实例 , 它 是 保存 接口 统计 信息 的 标准 
地 方 。 下 面 的 代码 行 分 配 和 初始 化 dev->priv: 

priv = netdev_priv(ldev); 

memset (priv, 0, sizeof(struct snull priv)); 


spin_lock_init (&priv->lock); 
snull_rx_ints (dev，1); /* 人 允许 接收 中 断 */ 
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模块 的 卸载 


在 卸载 snull 模 块 时 , 没有 什么 特殊 的 事情 需要 完成 。 模块 的 清除 函数 只 是 注销 接口 , 完 
成 一 些 需 要 在 清除 函数 中 完成 的 事 ， 然 后 释放 net_device 给 系统 : 
void snull_cleanup (void) 


{ 


nt 


fOr (i= 0 Le 2 dt) 4 
if (snull_devs[i]) { 
unregister netdev{(snull devs[i]); 
snull_teardown_pool (snull_devs[i]); 
free netdev(snull_devs{i]); 
} 
} 
return; 
} 


unregister_netdevy 函数 从 系统 中 删除 了 接口 ; fjree_merdev 图 数 将 net_device 结构 返回 给 


了 系统 。 如 果 还 在 什么 地 方 有 对 该 结构 的 引用 , 则 它 将 继续 存在 , 但 是 驱动 程序 并 不 需 
要 关注 这 一 点 。 一 旦 注销 了 接口 ， 内 核 就 不 会 再 调用 这 个 函数 了 。 


值得 注意 的 是 ， 只 有 当 设 备 被 注销 后 ， 内 部 的 清除 函数 (在 snull_teardown_pool 中 执 


行 ) 才能 被 执行 。 它 必须 在 将 net_device 结构 返回 给 系统 之 前 执行 ; 一 旦 调用 了 
free_netdev, 则 不 能 再 对 设备 或 者 私有 数据 区 进行 引用 。 


net_device 结构 细节 


net_device 结 构 位 于 网 络 驱 动 程序 层 的 最 核心 地 位 , 因此 值得 对 它 进行 完整 的 描述 。 
这 个 列表 描述 了 其 中 的 所 有 成 员 ， 但 对 读者 来 说 这 仅仅 作为 一 个 参考 而 不 必 记 忆 它 们 。 
在 本 章 的 剩余 部 分 ,只 要 在 例子 代码 中 使 用 到 它们 ,就 会 对 它们 进行 简要 的 描述 , 这样 
读者 就 不 必要 翻 回去 重新 看 了 。 


全 局 信息 
net_device 结构 的 第 一 部 分 包含 以 下 的 成 员 : 
char name [IFNRAMSIZ] ; 


设备 名 称 。 如 果 被 驱动 程序 设置 的 名 称 中 包含 $a 格式 化 字符 串 ，register_netdev 
将 使 用 一 个 数字 替换 它 ， 使 之 成 为 唯一 的 名 字 。 分 配 的 编号 从 零 开始 。 
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unsigned long state; 
设备 状态 。 这 个 成 员 中 包含 有 若干 标志 。 驱动 程序 通常 无 需 直 接 操作 这 些 标志 , 相 
反 ， 内 核 提供 了 一 组 工具 国 数 。 在 讲述 驱动 程序 操作 时 ， 我 们 将 讨论 这 些 函 数 。 
struct net_device *next; 
指向 全 局 链表 下 一 个 设备 的 指针 。 驱 动 程序 不 应 该 修改 这 个 成 员 。 
int (*init) (struct net_device *dev); 
初始 化 函数 。 如 果 这 个 指针 被 设置 了 ， 则 register_netdev 将 调用 该 函数 完成 对 
net_device 结 构 的 初始 化 ,大 多 数 现代 的 网 络 驱 动 程序 不 再 使 用 这 个 函数 了 , 相 
反 ， 它 们 是 在 注册 接口 前 完成 初始 化 工作 的 。 


硬件 信息 


下 面 的 成 员 包 含 了 相关 设备 的 底层 硬件 信息 。 它 们 继承 了 早期 Linux 网 络 的 特点 ; 大 多 
数 现代 的 驱动 程序 仍然 使 用 它们 (和 if_port 一 起 使 用 )。 在 这 里 列 出 它们 以 保证 完整 
性 。 


unsigned long rmem_end; 

unsigned long rmem_start; 

unsigned long mem_end; 

unsigned long mem_start; 
设备 内 存 信息 。 这些 成 员 保存 了 设备 使 用 的 共享 内 存 之 起 始 和 终止 地 址 。 如 果 该 设 
备 具 有 不 同 的 接收 和 传输 内 存 , 则 mem 成 员 用 于 传输 内 存 , 而 rmem 成 员 用 于 接收 
内 存 。rmem 成 员 从 来 不 会 在 驱动 程序 本 身 之 外 被 引用 。 根 据 约 定 ，end 成 员 的 设 
置 要 保证 end-start 等 于 可 用 的 板 卡 内 存量 。 


unsigned long base_addr; 
网 络 接口 的 I/O 基地 址 。 这 个 成 员 和 前 述 成 员 类 似 ， 要 在 设备 探测 阶段 赋值 。 
ifconfig 命令 可 显示 或 修改 当前 值 。base_addr 也 可 在 系统 引导 期 间 ， 或 在 装载 
期 间 在 命令 行 显 式 赋值 。 和 前 面 的 内 存 成 员 类 似 ， 内 核 不 会 使 用 该 成 员 。 


unsigned char irqg; 
被 赋予 的 中 断 号 。 在 列 出 接口 时 , ifconfig 命令 将 打印 dev->irq 的 值 , 这 个 值 通 
常 在 引导 或 装载 阶段 设置 ， 其 后 可 利用 ifconfig 修改 。 


unsigned char if_port; 
指定 在 多 端口 设备 上 使 用 哪个 端口 。 举 例 来 说 ， 如 果 设 备 同时 支持 同 轴 电缆 
(IF_PORT_10BASE2 ) 和 双 绞 线 (IF_PORT_10BASET) 以 太 网 连接 时 , 可 使 用 
该 成 员 。 完 整 的 已 知 端口 类 型 在 <linux/nerdevice.h> 中 定义 。 
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unsigned char dma; 
为 设备 分 配 的 DMA 通道 。 该 成 员 只 对 某 些 外 设 总 线 有 用 ， 比 如 ISA。 除 了 用 于 显 
示 信 息 (ifconfig 命令 ) 之 外 ， 不 会 在 设备 驱动 程序 之 外 使 用 这 个 成 员 。 


接口 信息 

大 郭 分 接口 相关 的 信息 可 由 ether_setup 函数 正确 设置 (或 者 针对 共 他 硬件 类 型 的 setup 
国 数 )。 以 太 网 卡 可 利用 这 个 通用 函数 设置 大 部 分 成 员 , 但 Elags 和 dev_addr 成 员 是 
设备 特有 的 ， 因 此 必须 在 初始 化 期 间 显 式 赋 值 。 


某 些 非 以 太 网 接口 也 可 以 使 用 类 似 ether_setup 这 样 的 辅助 函数 。drivers/net/nert_init.c 导 
出 了 一 些 类 似 的 函数 ， 如 下 所 示 : 


void ltalk _ setuplstruct net_device *dev); 


设置 LocalTalk 设备 的 函数 。 
void fc_setup (struct net_device *dev); 
初始 化 光纤 通道 设备 。 
void fddi_setup(struct net_device *dev); 
配置 光纤 分 布 式 数据 接口 (Fiber Distributed Data Interface ，FDDI) 网 络 的 接口 。 
void hippi_setup(struct net_device *dev); 
初始 化 高 性 能 并 行 接 口 (High-Performance Parallel Interface，HIPPI) 的 高 速 互 
连 驱动 程序 的 成 员 。 
void tr_setup (Struct net_device *dev); 


处 理 令 牌 环 网 络 接口 的 设置 函数 。 


大 多 数 设备 都 属于 这 些 类 中 的 一 种 。 如 果 设 备 是 一 个 崭新 的 类 , 就 需要 手工 设置 下 面 的 
成 员 了 : 


unsigned short hard header_len; 
硬件 头 的 长 度 , 即 数据 包 中 位 于 IP 头 ， 或 者 其 他 协议 信息 之 前 的 octet 数 目 。 对 以 
太 网 接口 ，hard_header_len 的 值 是 14 (ETH_HLEN )。 


unsigned mtu; 


最 大 传输 单元 (MTU ) 。 网 络 层 使 用 该 成 员 驱 动 数 据 包 的 传输 。 以 太 网 的 MTU 是 
1500 个 octet (ETH_DATA_LEN)。 
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unsigned long tx_queue_len; 
可 在 设备 的 传输 队列 中 排队 的 最 大 帧 数目 。ether_setup 将 该 成 员 设 置 为 100, 但 也 
可 以 修改 它 。 例 如 ， 为 避免 浪费 系统 内 存 ,plip 使 用 10 ( 比 起 实际 的 以 太 网 接口 ， 
plip 的 吞吐 率 要 低 些 ) 。 

unsigned short type; 
接口 的 硬件 类 型 。 ARP 使 用 type 成 员 判 断 接口 所 支持 的 硬件 地 址 类 型 。 以 太 网 接 
口 的 正确 值 是 ARPHRD_ETHER, 这 也 是 ether_setup 所 设置 的 值 。 可 识别 的 类 型 在 
<linuxlif_arp.h> 中 定义 。 


unsigned char addr_len; 

unsigned char broadcast [MAX ADDR_LEN]; 

unsigned char dev_addr [MAX_ADDR_LEN]); 
硬件 (MAC) 地 址 长 度 以 及 设备 的 硬件 地 址 。 以 太 网 地 址 长 度 是 6 个 octet ( 即 接 
口 板 卡 的 硬件 ID ) ， 广 播 地 址 由 6 个 0xff octet 组 成 。ether_setup 会 对 上 述 值 进 
行 正 确 的 设置 。 另 一 方面 , 设备 地 址 必须 从 接口 板 卡 中 以 设备 特有 的 方式 读 取 , 因 
此 驱动 程序 要 负责 将 该 地 址 复制 到 dev_addr。 在 数据 包 交 给 驱动 程序 传输 之 前 ， 
要 利用 硬件 地 址 生成 正确 的 以 大 网 数据 包头 。snull 不 使 用 物理 接口 ， 从 而 使 用 的 
是 它 自己 设 定 的 硬件 地 址 。 


unsigned short flags; 
int features; 


接口 标志 (下 面 详 述 )。 


该 标志 成 员 是 一 个 包含 如 下 位 值 的 位 掩 码 。IFF_ 前 级 表示 “接口 标志 “。 某 些 标志 由 
内 核 管理 , 而 其 他 一 些 则 由 接口 在 初始 化 期 间 设置 , 用 来 声明 接口 的 各 种 能 力 及 其 他 特 
性 。 有 效 的 标志 定义 在 <linux/if.h> 中 ， 解 释 如 下 : 


IFF_UP 
对 驱动 程序 , 该 标志 只 读 。 当 接口 被 激活 并 可 以 开始 传输 数据 包 时 ,内核 设 置 该 标 


"ro 


IFF_BROADCAST 
该 标志 (为 网 络 代码 所 维护 ) 说 明 接口 允许 广播 。 以 太 网 卡 是 可 广播 的 。 
IFF_DEBUG 
表示 调试 模式 。 该 标志 可 用 来 控制 用 于 调试 目的 的 大 量 printk 调 用 。 尽管 目前 还 没 
有 正式 的 驱动 程序 使 用 该 标志 ， 但 用 户 程序 可 通过 ioctl 设置 或 清除 该 标志 ， 因 此 
驱动 程序 可 以 利用 这 个 标志 。mics-progs/netifdebug 程 序 可 用 来 打开 或 关闭 该 标志 。 
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IFF_LOOPBACK 
该 标志 只 能 对 回环 设备 进行 设置 。 内 核 检 查 IFF_LOOPBRACK 标 志 以 判断 接口 是 否 
为 回环 设备 ， 而 不 是 将 1o 作为 特殊 的 接口 名 称 进行 判断 。 

IFEF_ POINTOPOINT 
该 标志 表明 接口 连接 到 点 对 点 链 路 。 这 个 标志 由 驱动 程序 设置 ， 有 时 也 由 ifconfig 
设置 。 例 如 ，plip 和 PPP 驱动 程序 将 设置 该 标志 。 

IFF_NOARP 
该 标志 表明 接口 不 能 执行 ARP。 例 如 ， 点 对 点 接口 不 需要 运行 ARP， 因 为 如 果 运 
行 了 ARP, 不 但 不 能 获得 有 用 的 信息 , 而 且 增 加 了 网 络 传输 量 。snul! 缺 少 ARP 功 
能 ， 因 此 设置 了 这 个 标志 。 

IFF_PROMISC 
设置 该 标志 (由 网 络 代 码 完 成 ) 将 激活 混杂 模式 。 默认 情 况 下 , 以 太 网 接口 使 用 一 
个 硬件 过 滤器 来 确保 它 只 接收 广播 数据 包 ， 以 及 直接 发 送 到 接口 硬件 地 址 的 数据 
包 。 像 tcpdump 这 样 的 数据 包 侦 听 器 ( sniffer) 会 在 接口 上 设置 混杂 模式 ， 以 便 检 
索 到 通过 传输 介质 的 所 有 数据 包 。 

IFF_MULTICAST 
该 标志 由 驱动 程序 设置 ,表示 该 接口 能 够 进行 组 播 (multicast) 发 送 。ether_setup 
默认 设置 IFF_MULTICAST, 因 此 如 果 驱 动 程序 不 支持 组 播 , 就 必须 在 初始 化 时 清 

IFF_ALLMULTI 
该 标志 告诉 接口 接收 所 有 的 组 播 数 据 包 。 仅仅 在 IFF_MULTICAST 被 设置 的 情况 
下 ， 内 核 在 主机 执行 组 播 路 由 时 设置 该 标志 。IFF_ALLMULT 对 接口 来 讲 是 只 读 
的 。 我 们 将 在 本 章 后 面 的 “组 播 ” 一 节 中 看 到 组 播 标志 的 使 用 。 

IFF_MASTER 

IFF_SLAVE 
该 标志 由 负载 均衡 代码 使 用 。 接 口 驱动 程序 无 需 了 解 该 标志 。 

IFF_PORTSEL 

IFF_AUTOMEDIA 
该 标 志 表 明 设 备 能 够 在 多 种 介质 类 型 之 闻 切 换 , 例如 , 在 非 屏蔽 双 绞 线 (UTP) 和 
同 轴 以 太 网 电缆 之 间 。 如 果 IFF_AUTOMEDIA 被 设置 ,设备 会 自动 选择 正确 的 介 
质 类 型 。 在 实际 使 用 中 ， 这 两 个 标志 都 不 会 被 内 核 使 用 。 

IFF_DYNAMIC 
该 标志 由 驱动 程序 设置 ， 表 示 接 口 地 址 可 改变 。 现 在 内 核 不 使 用 该 标志 。 
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IFF_RUNNING 
该 标志 表示 接口 已 经 启动 并 且 正 在 和 运行。 该 标志 主要 用 于 BSD 兼容 性 ， 内 核 很 少 
使 用 该 标志 。 大 多 数 网 络 驱动 程序 不 需要 关心 TFF_RUNNING 标志 。 
IFF_NOTRAILERS 
Linux 不 使 用 该 标志 ， 只 是 为 了 和 BSD 兼容 。 


在 程序 改变 IFF_UP 时 ,会 调用 open 或 stop 设备 函数 。 当 IFF_UP 或 其 他 任意 一 个 标 
志 被 修改 时 ，ser_multicast_list 函数 将 被 调用 。 如 果 驱 动 程序 需要 在 标志 被 修改 时 执行 
一 些 动作 ， 则 必须 在 set_multicast_list 中 完成 这 些 动作 。 例如， 当 IFF_PROMISC 被 设 
置 或 清除 ,sert_multicast_list 必 须 通 知 板 卡 上 的 硬件 过 滤器 。“ 组 播 ” 一 节 中 将 讲述 该 设 
备 方法 的 职责 。 


驱动 程序 设置 net_device 结 构 中 的 功能 成 员 , 以 告诉 内 核 该 接口 硬件 的 特殊 功能 。 本 
章 将 讨论 这 些 功能 的 一 部 分 ,而 其 余 功 能 超出 了 本 书 讨 论 的 范围 .完整 的 功能 列 出 如 下 : 


NETIF_F_SG 

NETIF_F_FRAGLIST 
这 两 个 标志 控制 了 分 散 /聚集 LO 的 使 用 。 如 果 一 个 数据 包 被 分 成 了 多 个 独立 的 内 
存 段 ， 而 接口 又 能 传输 这 样 的 数据 包 ， 则 需要 设置 NETIF_F_SG。 当 然 必须 实现 
分 散 /聚集 IO (将 在 “分 散 / 聚 集 MO” 一 节 中 讨论 )。NETIF_F_FRRAGLIST 表 明 
接口 能 够 处 理 那 些 被 分 成 块 的 数据 包 ， 在 内 核 2.6 中 只 有 回环 设备 有 此 功能 。 


请 注意 如 果 内 核 不 能 提供 检验 的 话 ， 也 不 能 为 驱动 程序 执行 分 散 /聚集 WO。 原因 
是 : 如 果 内 核 忽 赂 了 一 个 数据 包 片 段 (“ 非 线性 ” ) 而 去 计算 校 验 值 ， 它 也 能 同时 持 
贝 数 据 并 将 它们 结合 起 来 。 


NETIF_F_IP_CSUM 

NETIF_F_NO_CSUM 

NETIF_F_HW_CSUM 
这 些 标志 告诉 内 核 , 不 要 对 通过 接口 传 出 系统 的 部 分 或 者 全 部 的 数据 包 使 用 校 验 。 
如 果 接 口 仅仅 能 够 校 验 IP 数 据 包 ， 则 设置 NETIF_F_IP_CSUM。 如 果 该 接口 不 需 
要 校 验 ， 则 设置 NETIF_F_NO_CSUM。 回 环 设备 设置 该 标志 ，snul! 也 设置 了 它 ， 
这 是 因为 数据 包 只 是 通过 系统 内 存 传输 ,因此 不 会 失败 , 也 就 不 需要 检查 它们 了 。 


如 果 硬 件 自己 进行 校 验 的 话 ， 则 设置 NETIF_F_HW_CSUM。 

NETIF_F_HIGHDMA 
如 果 设 备 可 以 在 高 端 内 存 使 用 DMA ,设置 该 标志 。 如 果 不 设 置 该 标志 ,所 有 为 驱 
动 程序 提供 的 数据 包 缓 冲 区 将 在 低 端 内 存 中 分 配 。 
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NETIF_F_HW_VLAN_TX 
NETIF_F_HW_VLAN_RX 
NETIF_F_HW_VLAN_FILTER 
NETIF_F_VLAN_CHALLENGED 
这 些 选项 表示 硬件 支持 802.1q VLAN 数据 包 。 对 VLAN 的 支持 已 经 超出 了 本 章 的 
范围 。 如 果 设 备 不 支持 VLAN， 设 置 NETIF_F_VLAN_CHALLENGED 标志 。 
NETIF_F_TSO 
如 果 设 备 能 够 执行 TCP 分割 卸载 ， 则 设置 该 标志 。TSO 是 一 个 新 的 特性 .本章 将 
不 予 讨 论 。 


设备 方法 
和 字符 及 块 设备 类 似 , 每 个 网 络 设备 都 要 声明 作用 其 上 的 函数 。 本 节 将 给 出 可 在 网 络 接 
口上 执行 的 操作 ， 某 些 操作 可 保留 为 NULL， 其 他 一 些 无 需 修改 ， 因 为 erher_serup 将 赋 
子 适 当 的 方法 。 


网 络 接口 的 设备 方法 可 划分 为 两 个 类 型 : 基本 的 和 可 选 的 。 基 本 方法 包括 使 用 接口 必需 
的 方法 ; 可 选 方法 实现 了 一 些 更 为 高 级 的 功能 , 但 并 不 严格 要 求 有 这 些 方法 。 下 面 是 基 
本 方法 : 


int (*open) (struct net_device *dev); 
打开 接口 。 在 ifconfig 激活 接口 时 , 接口 将 被 打开 。open 函数 应 该 注册 所 有 的 系统 
资源 (IO 端口 、IRQ、DMA 等 等 )， 打 开 硬件 ， 并 对 设备 执行 其 他 所 需 的 设置 。 
int (*stop) (struct net_device *dev); 
停止 接口 。 当 接口 终止 时 应 该 被 停止 ,在 该 函数 中 执行 的 操作 与 打开 时 执行 的 操作 
相反 。 
int (*hard_start_xmit) (struct sk buff *skb, struct net_device *dev); 


该 方法 初始 化 数据 包 的 传输 。 完整 的 数据 包 (协议 头 和 数据 ) 包含 在 一 个 套 接 字 组 
冲 区 (sk_buffer) 结构 中 。 套 接 字 缓冲 区 将 在 本 章 后 面 介 绍 。 


int {*hard header) (struct sk_buff *skb, struct net_device *dev, unsigned 
short type, void *daddr, void *saddr, unsigned len); 

该 函数 (在 hard_start_xmit 前 被 调用 ) 根 据 先前 检索 到 的 源 和 目 标 硬件 地 址 建立 硬 

件 头 。 访 函数 的 任务 是 将 作为 参数 传递 进入 的 信息 ， 组 织 成 设备 特有 的 适当 硬件 

头 。eth_header 是 以 太 网 类 型 接口 的 默认 函数 ，ether_setup 将 该 成 员 赋值 成 


eth_header., 
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int (*rebuild header) (struct sk_buff *skb); 
该 函数 用 来 在 传输 数据 包 之 前 、 完 成 ARP 解析 之 后 ， 重 新 建立 硬件 头 。 以 太 网 设 
备 使 用 的 默认 函数 使 用 ARP 填充 数据 包 中 缺少 的 信息 。 


void (*tx_timeout) (struct net device *dev); 


如 果 数 据 包 的 传输 在 合理 的 时 间 段 内 失败 , 则 假定 丢失 了 中 断 或 接口 被 锁 住 ,这 时 
网 络 代码 将 调用 该 方法 。 它 负责 解决 问题 并 重新 开始 数据 包 的 传输 。 
struct net_device_stats *{(*get_stats) (struct net_device *dev}); 
当 应 用 程序 需要 获得 接口 的 统计 信息 时 ,将 调用 该 函数 。 例如， 在 运行 ifconfig 或 
netstat -i 命令 时 将 利用 该 方法 。 我 们 将 在 本 章 后 面 的 “统计 信息 中 ”看 到 snul! 的 
” 样 例 实现 。 
int (*set_config) (struct net_device *dev, struct ifmap *map); 
改变 接口 配置 。 该 函数 是 配置 驱动 程序 的 入 口 点 。 利 用 set_config， 可 在 运行 中 改 
变 设备 的 VO 地 址 和 中 断 号 。 在 探测 不 到 接口 时 ， 系统 管理 员 可 使 用 该 函数 。 现代 
硬件 的 驱动 程序 通常 不 需要 实现 该 方法 。 


其 余 的 设备 操作 可 看 作 是 可 选 的 : 


int weight; 

int {(*poll) (struct net_device *dev; int *quota); 
NAPI 兼 容 驱 动 程序 提供 该 方法 , 在 禁止 中 断 时 ， 以 轮 询 模式 操作 接口 。NAPI (以 
及 weight 成 员 ) 将 在 “不 使 用 接收 中 断 ” 一 节 中 讲述 。 

void (*poll_controller) (struct net_device *dev); 
该 函数 在 禁止 中 断 的 情况 下 , 要 求 驱动 程序 在 接口 上 检查 事件 。 它 被 用 于 特定 的 内 
核 网 络 任务 中 ， 比 如 远程 控制 台 和 内 核 网 络 调试 。 

int (*qdo_ioct1) (struct net_device *dev, struct ifreq *ifr, int cmd); 
执行 接口 特有 的 ioct! 命 令 (本 章 后 面 的 “定制 ioctl 命 令 ” 中 描述 了 这 些 命 令 的 实 
现 )。 如 果 接 口 不 需要 实现 任何 接口 特有 的 命令 , 则 net_device 中 对 应 的 成 员 可 
保持 为 NULL。 

void (*set_multicast_list) (struct net_device *dev); 
当 设 备 的 组 播 列 表 发 生 改变 , 或 者 设备 标志 发 生 改 变 时 , 将 调用 该 方法 .“ 组 播 ” 一 
节 将 详细 描述 该 方法 ， 并 给 出 一 个 样 例 实现 。 

int {(*set mac_address) (struct net_device *dev, void *addr); 
如 果 接 口 支持 硬件 地 址 的 改变 , 则 可 实现 该 方法 。 许多 接口 根本 不 支持 这 种 功能 。 
其 他 接口 使 用 默认 的 eth_mac_addr 实现 (在 drivers/net/net_init.c 中 定义 )。 
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eth_mac_addr 仅 仅 将 新 地 址 复制 到 dev->dev_addr 中, 而 且 只 能 在 接口 不 工作 
时 进行 设置 ,使 用 eth_mac_addr 的 驱动 程序 应 该 在 open 阴 数 中 ,用 dev->dev_adqdr 
设置 硬件 的 MAC 地 址 。 

int (*change_mtu) (struct net device *dev, int new_mtu); 
在 接口 的 MTU (maximum transfer unit， 最 大 传输 单元 ) 改变 时 ， 该 函数 负责 采 
取 相应 的 动作 。 如 果 驱 动 程序 在 用 户 改变 MTU 时 需要 完成 某 些 特定 工作 , 则 应 该 
声明 自己 的 函数 ， 否 则 默认 的 函数 可 正确 实现 相关 处 理 。snull 实现 了 该 方法 ， 可 
作为 模板 参考 。 

int (*header_cache) (struct neighbour *neigh, struct hh_cache *hh); 
head_cache 将 根据 ARP 查 询 的 结果 填充 hh_cache 结 构 。 几乎 所 有 的 驱动 程序 都 
可 以 使 用 默认 的 eth_header_cache 实现 。 


int (*header cache update) {struct hh_cache *hh, struct net_device *dev, 
unsigned char *haddr); 
在 发 生变 化 时 ， 该 方法 更 新 hh_cache 结构 中 的 目标 地 址 。 以 太 网 设备 使 用 


eth_header_cache_update. 


int {*hard header parse) (struct sk_buff *skb, unsigned char *hadar); 
hard_header_parse 尔 数 从 skb 中 包含 的 数据 包 中 获得 源 地 址 , 并 将 其 复制 到 位 于 
h a d dr 的 缓 促 区 。 该 函数 的 返回 值 是 地 址 的 长 度 。 以 太 网 设备 通常 使 用 


eth_ header parse, 


工具 成 员 


net_device 结 构 中 其 余 的 数据 成 员 由 接口 使 用 ,保存 一 些 有 用 的 状态 信息 。 某 些 成 员 
由 ifconfig 和 netstat 使 用 , 以 便 为 用 户 提供 当前 的 配置 信息 。 因 此 接口 应 该 给 这 些 成 员 
赋予 适当 的 值 : 


unsigned long trans_start; 

unsigned long last_rx; 
这 些 成 员 都 保存 一 个 jiffies 值 ,驱动 程序 分 别 在 传输 开始 及 接收 到 数据 包 时 负责 更 
新 这 些 值 。 网 络 子 系统 使 用 trans_stat 值 检测 传输 器 是 否 被 锁 住 。 last_rx 当 
前 未 使 用 ， 但 驱动 程序 应 该 维护 这 个 成 员 ， 以 便 将 来 使 用 。 

int watchdog. timeo; 
在 网 络 层 确定 传输 已 经 超时 , 并 且 调 用 驱动 程序 的 立 _ umeoxi 函 数 之 前 的 最 小 时 间 
{jiffies 为 单位 )。 
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void *priv; 
和 filp->private_data 等 价 , 在 现代 的 驱动 程序 中 , 该 成 员 由 alloc_netdev 设 
置 ， 并 且 不 能 被 直接 访问 ; 如 要 访问 ， 需 要 使 用 netdev_priv 函数 。 

struct dev mc_list *mc_list; 

int mc_count; 
上 面 这 两 个 成 员 用 来 处 理 组 播 传 输 。 mc_count 是 mc_1list 所 包含 的 项 的 数目 。 
详细 信息 ， 可 参阅 “组 播 ” 一 节 。 

spinlock_t xmit_lock; 

int xmit_lock_owner; 
xmit_lock 用 来 避免 同时 对 驱动 程序 的 hard_start_xmit 函数 的 多 次 调用 。 
xmit_lock_owner 是 获得 xmit_lock 的 CPU 编号。 驱动 程序 不 应 改变 这 些 成 员 。 


net_device 结构 中 还 有 其 他 一 些 成 员 ， 但 网 络 驱动 程序 不 使 用 它们 。 


打开 和 关闭 


驱动 程序 可 在 装载 阶段 或 内 核 引导 阶段 探测 接口 。 但 是 在 接口 能 够 传送 数据 包 之 前 ,内 
核 必须 打开 接口 并 赋予 其 地 址 。 内 核 可 在 响应 ifconfig 命令 时 打开 或 关闭 一 个 接口 。 


在 使 用 ifconfig 向 接口 赋予 地 址 时 ,要 执行 两 个 任务 ,首先 , 它 通过 ioct1 {SIOCSIFADDR) 
( Socket IO Control Set Interface Address ) 赋 予 地 址 ,然后 通过 ioctl (SIOCSIFFLAGS) 
( Socket 1/O Control Set Interface Flags) 设置 aev->flag 中 的 IFF_UP 标 志 以 打开 接 
日 。 


对 设备 而 言 ， 无 需 对 ioct1 (SIOCSIFADDR) 做 任何 工作 。 内 核 不 会 调用 任何 驱动 程 
序 函 数 ， 也 就 是 说 ， 该 任务 由 内 核 来 执行 ， 是 与 设备 无 关 的 。 而 后 一 个 命令 
(ioct1(SIOCSIFFLRAGS) ) 会 调用 设备 的 open 方法 。 


类 似 地 ， 在 接口 被 关闭 时 ，ifconfig 使 用 ioct1(SIOCSIFFLRGS) 来 清除 IFF_UP 标 
志 ， 然 后 调用 stop 函数 。 


这 两 个 设备 函数 在 成 功 时 均 返 回 0， 而 在 失败 时 和 通常 一 样 ， 返 回 负 值 。 


对 实际 代码 而 言 , 驱动 程序 必须 执行 许多 和 字符 及 块 设备 相同 的 任务 。open 请 求 必 要 的 
系统 资源 ， 并 告诉 接口 开始 工作 ; stop 关闭 接口 并 释放 系统 资源 。 但 是 除 此 之 外 ,还 要 
执行 其 他 一 些 步骤 。 
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首先 ， 在 接口 能 够 和 外 界 通讯 之 前 ， 要 将 硬件 地 址 (MAC ) 从 硬件 设备 复制 到 
dev->dev_addr。 硬件 地 址 可 在 打开 期 间 找 贝 到 设备 中 。snull 软件 接口 在 open 时 
赋予 硬件 地 址 一 一 它 其 实 使 用 了 一 个 长 度 为 ETH_ALEN 的 ASCII 字 符 串 作为 假 的 硬件 
地 址 ， 其 中 ETH_ALEN 是 以 太 网 硬件 地 址 的 长 度 。 


一 旦 准备 好 开始 发 送 数 据 后 ，open 方法 还 应 该 启动 接口 的 传输 队列 (允许 接口 接受 传 
输 数 据 包 )。 内 核 提 供 的 如 下 函数 可 启动 恋 队 列 : 


void netif_start_queue{struct net device *dev); 


snull 的 open 代码 如 下 所 示 : 


int snull_open{struct net_device *dev)} 
{ 
/* request_region{), request_irq(), .... {like fops->open) */ 


/* 

* 对 主板 的 硬件 地 址 赋值 :使 用 “\0SNULx”， 

* 其 中 x 是 0 或 者 1。 第 一 个 字 节 是 “\0” 是 

* 为 了 避免 成 为 组 播 地 址 (组 播 的 aadrs 第 一 个 字 节 是 奇数 )。 


maf, 
memcpy (dev->dev_addr, "\0SNULO", ETH_ALEN); 
if (aev = = snull_devs[1]) 


dev->dev_addr [ETH ALEN-1}++; /* MOSNUL1L */ 
netif start_queue {dev}; 
return 0; 
} 


正如 读者 已 经 看 到 的 那样 , 在 缺少 实际 硬件 的 情况 下 , 在 open 函数 要 做 的 事情 很 少 .对 
stop 函数 而 言 ， 也 是 这 样 ， 它 只 是 open 的 反 操作 。 出 于 这 个 原因 ， 实 现 stop 的 函数 经 
常 被 称 为 close 或 release。 


int Snul1_release (Struct net_device *Gev) 


攻 
/* 释放 端口 、irq 及 如 fops->close 中 释放 的 东西 */ 


netif_stop_queue {dev); /* 不 能 再 继续 传输 */ 
return 0; 


函数 : 

void netif_stop_queue{struct net_device *dev); 
是 netif_start_queue 的 逆 操 作 ， 它 标记 设备 不 能 传输 其 他 数据 包 。 在 接口 被 关闭 时 (在 
stop 函数 中 ), 必须 调用 该 函数 , 但 该 函数 也 可 以 用 来 临时 停止 传输 ， 将 在 下 一 节 讲 述 相 
关内 容 。 
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数据 包 传 输 


网 络 接口 所 执行 的 最 重要 任务 是 数据 的 传输 和 接收 。 这 里 首先 讨论 传输 , 因为 数据 的 传 
输 相对 容易 理解 一 些 。 


传输 指 的 是 将 数据 包 通 过 网 络 连接 发 送出 去 的 行为 。 无 论 何 时 内 核 要 传输 一 个 数据 包 ， 
它 都 会 调用 驱动 程序 的 hard_start_transmit 函 数 将 数据 放 人 外 发 队列 。 内核 处 理 的 每 个 
数据 包 位 于 一 个 套 接 字 缓 冲 区 结构 (sk_buff) 中 , 该 结构 定义 在 <linux/skbujjf.h> 中 。 
这 个 结构 的 名 称 来 自 于 表示 网 络 连接 的 Unix 抽象 ， 即 套 接 字 ( socket)。 尽 管 接口 无 需 
处 理 套 接 字 , 但 每 个 网 络 数据 包 属 于 更 高 网 络 层 的 某 个 套 接 字 , 而 且 所 有 套 接 字 的 输入 / 
输出 缓冲 区 都 是 sk_buff 结 构 形 成 的 链表 。 同一 个 sk_buff 结 构 还 用 在 主机 网 络 数据 
以 及 所 有 的 Linux 两 络 子 系统 , 但 是 对 接口 而 言 , 套 接 字 缓 冲 区 仅仅 是 一 个 数据 包 而 已 。 


指向 sk_buff 的 指针 通常 称 为 skb， 因 此 在 代码 和 正文 中 将 继续 这 个 叫 法 。 


套 接 字 缓 冲 区 是 一 个 复杂 的 结构 ， 内 核 提供 了 许多 用 来 操作 该 结构 的 函数 。 我 们 将 在 
“ 套 接 字 缓冲 区 ”一 节 中 描述 这 些 函 数 , 现在 只 需 了 解 一 些 关 于 sk_buff 的 基本 概念 ， 
就 能 编写 一 个 可 工作 的 驱动 程序 。 


传递 给 hard_start_xmit 的 套 接 字 缓冲 区 包含 了 物理 数据 包 (以 它 在 介质 上 的 格式 ), 并 
拥有 完整 的 传输 层 数据 包头 。 接 口 无 需 修改 要 传输 的 数据 。skb->data 指向 要 传输 的 
数据 包 , 而 skb->len 是 以 octet 为 单位 的 长 度 。 如 果 驱 动 程序 能 够 处 理 scatter/gather 
IO， 形 势 将 变 得 有 些 复杂 ; 本 章 将 在 “Scatter/Gather IIO” 一 节 中 详细 讲述 。 


下 面 是 snull 的 数据 包 传 输 代码 。 实 现 传输 的 物理 机 制 在 另外 一 个 单独 的 函数 中 实现 ， 
这 是 因为 每 个 接口 驱动 程序 都 必须 根据 其 驱动 的 特有 硬件 实现 这 段 代码 : 


int snull tx{struct sk_ buff *skb, struct net_device *dev) 
{ 

int len; 

char *data, shortpkt [ETH_ZLEN]; 

struct snull_priv *priv = netdev_privl(dev); 


data = skb->data; 
len = skb->len; 
it {len < ETH_ZLEN) { 
memset {shortpkt, 0, ETH_ ZLEN); 
memcpy (shortpkt, skb->data, skb->len)}; 
len = ETH_ZLEN; 
data = shortpkt; 
} 
dev->trans_start = jiffies; /* 保存 时 间 葵 */ 


/* 记 住 skb， 这样 可 以 在 中 断 时 刻 释 放 它 */ 
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priv->skb = skb; 


/* 对 数据 的 实际 传送 是 设备 相关 的 ， 并 不 在 这 里 显示 */ 


snull_hw_tx(data, len, dev}; 


return 0; /* 该 设备 不 可 能 失败 */ 
该 传输 函数 只 执行 了 对 数据 包 的 一 致 性 检查 , 然后 通过 硬件 相关 的 函数 传输 数据 。 当 所 
需 传输 的 数据 包 长 度 小 于 介质 (对 smali 来 说 就 是 虚拟 网 卡 ) 所 支持 的 最 小 长 度 时 , 则 需 
小 心 处 理 。 许 多 Linux 网 络 驱 动 程序 (对 其 他 操作 系统 的 网 络 驱动 程序 也 一 样 ) 在 遇 到 
这 种 情况 时 , 会 漏 掉 一 些 数据 。 为 了 克服 这 个 安全 漏洞 ， 需 要 将 短小 的 数据 包 拷 贝 到 一 
个 分 立 的 数组 中 , 而 对 这 个 数组 ， 则 又 可 以 对 介质 所 支持 的 全 部 长 度 个 元 素 清 零 (由 于 
最 小 长 度 是 60 个 字 节 ， 实 在 太 小 了 ， 所 以 可 以 将 数据 做 压 栈 处 理 )。 


如 果 执 行 成 功 ， 则 hard_start_xmit 返 回 0。 此 时 负责 传输 数据 包 的 驱动 程序 要 尽量 保证 
传输 的 正常 进行 , 而 且 完 毕 后 必须 释放 skb。 返回 一 个 非 零 值 表 示 此 次 数据 传输 失败 ; 内 
核 将 会 重 试 传输 。 在 这 种 情况 下 , 驱动 程序 应 该 在 解决 掉 导 致 失败 的 原因 前 , 停止 队列 。 


这 里 忽略 了 “硬件 相关 ”的 传输 函数 (snull_hw_tx)， 是 因为 其 内 部 尽 是 snul! 设 备 的 其 
骗 性 代码 (包括 操作 源 和 目标 地 址 ), 从 而 对 实际 网 络 驱 动 程序 编写 者 来 讲 意义 不 大 。 当 
然 ， 如 果 读 者 对 此 感 兴 趣 ， 也 可 以 从 示例 代码 中 看 到 这 个 函数 的 完整 实现 。 


控制 并 发 传输 


hard_start_xmit 函数 通过 net_device 结构 中 的 一 个 自 旋 锁 (xmiz_lock) 获得 并 发 调 
用 时 的 保护 。 但 是 在 该 函数 返回 后 ， 有 可 能 再 次 被 调用 。 当 软件 指示 硬件 开始 传输 数据 
包 之 后 ， 该 函数 返回 ,但 是 硬件 传输 可 能 尚未 结束 。 这 对 snull 来 说 不 是 问题 ， 因 为 它 
利用 CPU 完成 所 有 的 工作 ， 因 此 在 传输 函数 返回 时 ， 数 据 包 的 传输 已 经 结束 。 


另 一 方面 ， 实际 的 硬件 接口 却 是 异步 传输 数据 包 的 ， 而 且 可 用 来 保存 外 发 数据 包 的 存储 
空间 非常 有 限 。 在 内 存 被 耗 尽 时 (对 某 些 硬件 , 也 许 单个 外 发 数据 包 的 传输 就 会 使 内 存 
耗 尽 ) ， 驱 动 程序 需要 告诉 网 络 系统 在 硬件 能 够 接受 新 数据 之 前 ， 不 能 启动 其 他 的 数据 
包 传 输 。 


调用 netif_stop_queue 可 完成 这 一 通知 。 前 面 在 停止 队列 时 介绍 过 这 个 函数 。 在 驱动 程 
序 停止 队列 之 后 , 它 必 须 在 将 来 的 某 个 时 刻 ， 当 它 能 够 再 次 接受 数据 包 的 传输 时 ,重新 
启动 该 队列 。 为 此 ， 应 调用 : 


void netif_wake_queue{struct net_device *dev)}; 
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这 个 函数 除了 通知 网 络 系统 可 再 次 开始 传输 数据 包 以 外 ,和 netif start_queue 函 数 一 样 。 


许多 现代 的 网 络 接口 在 传输 多 个 数据 包 时 , 维护 一 个 内 部 的 队列 , 这 样 可 以 获得 最 好 的 
网 络 性 能 。 这 种 设备 的 网 络 驱动 程序 在 任意 时 刻 都 可 支持 多 个 外 发 传输 数据 包 , 但 不 管 
设备 是 否 支持 多 个 外 发 传输 数据 包 , 设备 内 存 都 会 被 填 满 。 一 旦 设备 内 存 填 充 到 容 不 下 
最 大 可 能 的 数据 包 的 时 候 ， 驱 动 程序 应 该 停止 队列 ， 直 到 空间 再 次 可 用 为 止 。 


如 果 想 从 其 他 地 方 , 而 不 是 从 hard_start_xmit 函数 (可 能 负责 重新 配置 请 求 ) 中 禁止 数 
据 包 的 传送 ， 则 要 调用 下 面 的 函数 : 


void netif tx_disable{struct net device *dev); 


该 函数 的 行为 与 netif_stop_queue 类似, 但 它 还 确保 了 在 返回 时 , 在 其 他 的 CPU 上 没有 
运行 hard_start_xmit 国 数 。 通 常 可 以 使 用 netif_wake_gqueue 函数 再 次 开始 传输 队列 。 


传输 超时 


大 部 分 处 理 实际 硬件 的 驱动 程序 必须 能 够 应 付 硬件 偶尔 不 能 正确 响应 的 问题 ,接口 也 许 
会 忘记 它 在 做 什么 , 或 者 系统 有 可 能 丢失 中 断 。 这 种 类 型 的 问题 在 个 人 计算 机 上 的 某 些 
设备 中 很 常见 。 


许多 驱动 程序 利用 定时 器 处 理 这 类 问题 ; 如 果 某 个 操作 在 定时 器 到 期 时 还 未 完成 , 则 认 
为 出 现 了 问题 .从 本 质 上 讲 ,网 络 系统 是 通过 大 量 定时 器 控制 的 多 个 状态 机 的 复杂 组 合 。 
从 这 个 角度 上 讲 ， 网 络 代码 把 检测 传输 超时 作为 其 常用 操作 之 一 。 


因此 网 络 驱 动 程序 无 需 自己 检测 这 种 问题 。 相 反 驱 动 程序 只 需 设 置 一 个 超时 周期 , 并 在 
net_device 结 构 的 watchdog_timeo 成 员 中 设置 ,这 个 周期 以 jiffies 为 单位 , 对 通 
常 的 传输 延迟 (比如 网 络 介质 上 因 堵 塞 造成 的 冲突 ) 来 讲 应 该 是 足够 长 的 。 


如 果 当 前 的 系统 时 间 超过 设备 的 trans_start 时 间 至 少 一 个 超时 周期 , 网 络 层 将 最 终 
调用 驱动 程序 的 ix_timeout 函数 。 这 个 函数 的 任务 是 完成 解决 超时 间 题 而 需要 的 任何 工 
作 , 并 确保 正在 进行 的 任何 传输 能 够 正常 结束 。 驱动 程序 不 能 丢失 网 络 代码 提交 的 套 接 
字 缓冲 区 ， 这 一 点 尤其 重要 。 


snull 可 模拟 这 种 传输 器 被 锁 住 的 情形 ， 可 通过 装载 时 的 两 个 参数 控制 : 


static int lockup = 0; 
module_param{lockup, int, 0); 


static int timeout = SNULL_TIMEOUT; 
module_param{(timeout, int, 0); 











网 络 驱 动 程序 513 





如 果 使 用 lockup=n 参 数 装载 驱动 程序 , 则 会 在 传输 n 个 数据 包 之 后 模拟 一 次 传输 器 硬 
件 的 锁 住 , 并 且 watchdog_timeo 成 员 将 设置 为 给 定 的 超时 值 。 在 模拟 锁 住 时 ，snull 
会 调用 netif_stop_queue 以 避免 产生 其 他 的 传输 请 求 。 


snull 的 传输 超时 处 理 器 程序 如 下 所 示 : 


void snull tx timeout (struct net_ device *dev) 
{ 
struct snull_priv *priv = netdev_priv(dev) 
PDEBUG{("Transmit timeout at %ld, latency %ld\n", jiffies, 
jiffies - dev->trans_start):; 
/* 模拟 一 个 传输 中 断 */ 
priv->status = SNULL_ TX_INTR:; 
snull_interrupt (0, dev, NULL); 
priv->Sstats.tx errors+t+; 
netif wake queue (dev); 
return; 


当 传输 超时 发 生 时 , 驱动 程序 必须 在 接口 统计 信息 中 标记 该 错误 , 并 要 将 设备 重 置 为 一 
个 合理 的 状态 ， 以 便 传 输 新 的 数据 包 。 在 snuil 中 发 生 超时 时 ， 驱 动 程序 调用 
snull_interrupt 填补“ 丢失 ”的 中 断 ， 并 调用 netif_wake_queue 重新 启动 传输 队列 。 


Scatter/Gather MO 


在 网 络 上 为 传输 工作 创建 数据 包 的 过 程 , 包括 了 组 装 多 个 数据 片段 的 过 程 。 数据 包 中 的 
数据 需要 从 用 户 空间 拷贝 出 来 , 并 且 针对 各 种 不 同 层次 的 网 络 协议 栈 添 加 数据 头 。 这 个 
组 装 过 程 包 含 了 大 量 的 数据 拷贝 工作 。 如 果 负 责 发 送 数据 包 的 网 络 接 只 实现 了 分 散 / 聚 
集 UO， 则 数据 包 就 不 用 组 装 成 一 个 大 的 数据 块 ， 而 且 省 去 了 许多 拷贝 操作 。 分 散 / 聚 
集 1/O 还 能 用 “和 零 找 贝 ”的 方法 ， 把 网 络 数据 直接 从 用 户 空间 缓冲 区 内 传输 出 来 。 


只 有 在 device 结 构 中 的 feature 成 员 内 设置 了 NETIF_F_SG 标 志 位 , 内 核 才 将 分 散 的 
数据 包 传递 给 hard_start_xmiit 函数 。 如 果 设 置 了 该 标志 , 还 需要 检查 skb 中 的 “共享 信 
息 ” 成 员 , 以 判断 数据 包 是 由 一 个 数据 片段 组 成 , 还 是 由 大 量 数据 片段 组 成 ,并 且 负 责 
查找 所 需要 的 分 散 数据 片段 。 这 使 用 一 个 特殊 的 、 称 之 为 skb_shinfo 的 宏 来 访问 这 个 信 
息 。 使 用 下 面 的 代码 作为 传输 潜在 数据 包 片 段 的 第 一 步 : 

if (skb_shinfo(skb)~>nr_frags = = 0) { 

/* 像 通 常 一 样 只 使 用 skb->data 和 skb->len */ 

} 
nr_frags 成 员 表明 组 成 数据 包 的 数据 片段 个 数 。 如 果 它 是 0， 则 说 明 数 据 包 由 一 个 数 
据 片 段 组 成 ， 可 以 通过 data 成 册 来 访问 。 如 果 它 不 是 0， 则 驱动 程序 必须 检查 和 组 装 


iy 第 十 七 章 





每 个 要 传输 的 数据 片段 。skb 结 构 中 的 aata 成 员 指 向 了 第 一 个 数据 片段 (相对 于 那些 由 
一 个 数据 片段 组 成 的 数据 包 )。 数 据 片段 的 长 度 必须 通过 在 skb->len ( 它 依然 保存 了 
全 部 数据 包 的 长 度 } 中 减 去 skb->data_len 来 得 到 。 剩余 的 数据 片段 保存 在 共享 数据 
结构 的 frags 的 数组 中 。frags 的 每 个 入 口 都 是 一 个 skb_frag_struct 结构 : 
struct skb_frag_struct { 
struct page *page; 
__U16 page offset,; 


__uUl6 size; 
7 


由 此 可 见 ， 这 次 又 要 处 理 页 结构 ， 而 不 是 内 核 虚 拟 地 址 了 。 驱 动 程序 将 遍历 数据 片段 ， 
并 为 DMA 传输 进行 映射 , 这 些 工作 也 发 生 在 直接 放 在 skb 结 构 中 的 第 一 个 数据 片段 上 。 
当然 硬件 负责 组 装 数据 片段 , 并 把 它们 作为 一 个 单独 的 数据 包 发 送出 去 。 请 注意 ,如 果 
设置 了 NETIF_F_HIGHDMA 标志 ， 其 中 一 些 , 或 者 是 所 有 的 数据 片段 可 能 放 在 了 高 端 
内 存 区 。 


数据 包 的 接收 


从 网 络 上 接收 数据 要 比 传输 数据 复杂 一 点 ， 这 是 因为 必须 在 原子 上 下 文中 分 配 一 个 
sk_buff 并 传递 给 上 层 处 理 。 网 络 驱动 程序 实现 了 两 种 模式 接收 数据 包 : 中 断 驱动 方 
式 和 轮 询 方式 。 大 多 数 驱 动 程序 实现 了 中 断 驱动 技术 , 也 是 本 章 讨论 的 第 一 种 模式 。 一 
些 宽带 适配器 的 驱动 程序 也 实现 了 轮 询 技 术 ， 将 在 “不 使 用 接收 中 断 ” 一 节 中 讲 到 。 


snul! 的 实现 从 设备 无 关 的 管理 工作 中 将 “硬件 ”细节 隔离 了 出 来 。snull_rx 函数 在 硬件 
接收 到 数据 包 之 后 (数据 包 已 经 在 计算 机 内 存 中 了 ), 被 snull 的 “中 断 ”处 理 程序 调用 。 
snull_rx 接 收 一 个 指向 数据 的 指针 ,以 及 数据 包 的 长 度 。 它 还 负责 将 数据 包 以 及 其 他 附 
加 信息 发 送 到 上 层 的 网 络 代码 。 这 一 代码 和 获得 数据 指针 及 其 长 度 的 途径 无 关 。 


void snull_ rxlstruct net_device *dev, struct snull_packet *pkt} 
{ 

struct sk_buff *skb; 

struct snull priv *priv = netdev_privt{dev); 


/* 
* 已 经 从 传输 介质 中 获得 了 数据 包 。 建 立 封装 它 的 skb， 使 得 上 层 可 以 处 理 它 
Wf 
skb = dev_alloc_skb (pkt->datalen + 2); 
if {!skb) { 
if {printk_ratelimit{()} 
printk (KERN_NOTICE "snull rx: low on mem - packet dropped\n"); 
priv->stats.rx_dropped++; 
goto out; 
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memcpy (skb_put (skb, pkt->datalen), pkt->data, pkt->datalen); 


/* 写 人 数据 、 然 后 将 其 传递 给 接收 层 */ 
skb->dev = dev; 
Skb->protocol = eth type.trans(skb, dev); 
skb->ip_summed = CHECKSUM_UNNECESSARY; /* 不 必 检 查 它 */ 
priv->stats.rx_packets+t++; 
priv->stats.rx bytes += pkt->datalen; 
netif_rx(skb); 
out: 

return; 

} 


该 函数 十 分 通用 , 从 而 可 以 作为 真实 网 络 驱 动 程序 的 一 个 模板 , 但 在 使 用 这 些 代码 段 之 
前 ， 需 要 一 些 必要 的 解释 。 


第 一 步 是 分 配 一 个 保存 数据 包 的 缓冲 区 。 注意 缓冲 区 的 分 配 函 数 (dev_alloc_skb) 需要 
知道 数据 长 度 。 这 个 函数 利用 这 一 信息 为 缓冲 区 分 配 空间 。dev_alloc_skb 以 原子 的 优先 
权 调用 bmalioc， 因 此 可 在 中 断 期 间 安 全 使 用 。 内 核 提 供 了 分 配套 接 字 缓冲 区 的 其 他 接 
口 ,但 不 值得 在 这 里 讨论 。 本 章 后 面 的 “ 套 接 字 缓冲 区 ”一 节 中 将 详细 解释 套 接 字 缓冲 


区 。 


当然 必须 检查 dev_alloc_skb 函数 的 返回 值 ，snull 也 这 样 做 了 。 可 以 在 失败 时 使 用 
printk_ratelimit。 每 秒 钟 产 生成 百 上 千 条 控制 台 消 息 是 使 系统 整体 性 能 下 降 的 好 方法 ， 
并 且 会 隐藏 产生 问题 的 真实 原因 ; 当 向 控制 台 发 送 大 量 信息 时 , printk_ratelimit 返 回 0， 
为 预防 该 情况 的 发 生 ， 当 然 性 能 会 有 所 下 降 。 


一 旦 拥有 一 个 合法 的 skb 指针 ， 则 调用 memcpy 将 数据 包 数 据 拷贝 到 缓冲 区 内 。skb_pui 
函数 刷新 缓冲 区 内 的 数据 末尾 指针 ， 并 且 返 回 新 创建 数据 区 的 指针 。 


如 果 正 在 为 某 个 接口 编写 能 够 实现 完整 总 线 控制 IO 的 高 性 能 驱动 程序 , 则 可 以 考虑 一 
种 优化 可 能 性 。 某 些 驱 动 程序 在 传人 数据 包 到 达 之 前 为 它们 分 配套 接 字 缓 冲 区 , 然后 指 
示 接 口 直接 将 数据 包 数 据 放 人 套 接 字 缓冲 区 中 。 网络 层 与 这 种 策略 相配 合 , 会 在 可 进行 
DMA 的 空间 中 分 配 所 有 的 套 接 字 缓冲 区 ( 如 果 设 备 设置 了 NETIF_F_HIGHDMR 标志， 
它 可 能 在 高 端 内 存 中 )。 这 样 可 避免 填充 套 接 字 缓冲 区 的 额外 复制 操作 ， 但 是 因为 无 法 
预先 知道 传人 的 数据 包 大 小 , 所 以 必须 谨慎 处 理 缓冲 区 大 小 .在 这 种 情况 下 ,chang_mtu 
方法 的 实现 也 很 重要 ,因为 它 可 以 让 驱动 程序 对 最 大 数据 包 大 小 的 改变 做 出 适当 的 响应 。 


在 能 够 处 理 数 据 包 之 前 , 网 络 层 必须 知道 数据 包 的 一 些 信息 。 为 此 必须 在 将 缓冲 区 传递 
到 上 层 之 前 ， 对 aev 和 protocol 成 员 正确 赋值 。 以 太 网 支持 代码 导出 了 辅助 函数 
eth_type_trans， 用 来 查找 填 人 protocol 中 的 正确 值 。 然后 需要 指定 如 何 求 得 校 验 和 ， 
或 者 已 经 在 数据 包 上 求 得 了 校 验 和 (snul! 无 需求 得 任何 校 验 和 )。skb->ip_summed 的 可 
能 策略 如 下 所 示 : 
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CHECKSUM_HW 
设备 已 经 在 硬件 晨 求 得 了 校 验 和 。SPARC HME 接口 是 硬件 校 验 和 的 一 个 例子 。 
CHECKSUM_NONE 
校 验 和 还 未 被 验证 , 而 且 访 任务 必须 由 系统 软件 完成 。 对 新 分 配 的 缓冲 区 , 这 是 默 
认 策 略 。 
CHECKSUM_UNNECESSARY 
不 进行 任何 校 验 和 的 计算 。 这 是 snul! 和 回环 接口 的 策略 。 


读者 可 能 会 问 : 已 经 在 net_dqevice 结 构 的 features 成 员 中 设置 了 标志 ， 为 什么 这 
里 还 必须 指定 校 验 和 呢 ? 原因 是 features 标志 告诉 内 核 设备 是 如 何 处 理 传 出 的 数据 
包 。 对 传人 的 数据 包 并 不 使 用 该 标志 ， 因 此 必须 单独 设置 它 。 


最 后 ,驱动 程序 更 新 其 统计 计数 器 , 以 记录 已 接收 到 每 个 数据 包 。 统计 结构 中 包含 若干 
成 员 、 最 重要 的 有 rx_packets、rx_bytes、tx_packets 和 tx_bytes， 其 中 包含 了 已 
接收 和 已 发 送 的 数据 包 个 数 , 以 及 已 传输 的 octet 总 量 。 本 章 后 面 的 “统计 信息 ”一 节 中 
将 全 面 介 绍 所 有 的 成 员 。 


接收 数据 包 过 程 中 的 最 后 一 个 步骤 由 nerif_rx 执 行 , 它 将 套 接 字 缓冲 区 传递 给 上 层 软件 
处 理 。 实 际 上 netif_rx 返 回 一 个 整 型 值 ，NET_RX_SUCCESS (0) 表 示 数 据 包 已 经 被 成 功 
接收 ; 其 他 的 值 表 示 失 败 。 有 三 个 返回 值 (NET_RX_CN_LOW、NET_RX_CN_MOD 和 
NET_RX_CN_HIGH) 由 低 到 高 表示 网 络 子 系统 的 拥堵 状况 ; NET_RX_DROP 表 示 对 数据 包 的 
丢失 。 当 拥堵 严重 时 , 驱动 程序 使 用 这 些 值 终止 向 内 核发 送 数 据 包 , 但 是 在 实际 的 操作 
中 ,大 多 数 驱 动 程序 忽略 从 netif_rx 函数 返回 的 值 。 如 果 读 者 正在 编写 一 个 宽带 设备 的 
驱动 程序 ， 并 且 和 希望 对 网 络 堵塞 情况 做 出 正确 的 响应 ， 最 好 的 方法 是 实现 NAPI， 在 讲 
述 中 断 处理 例 程 之 后 将 讲 到 它 。 


中 断 处 理 例 程 


大 多 数 硬件 接口 通过 中 断 处 理 例 程 来 控制 。 接口 在 两 种 可 能 的 事件 下 中 断 处 理 器 : 新 数 
据 包 到 达 , 或 者 外 发 数据 包 的 传输 已 经 完成 .网 络 接口 还 能 产生 中 断 以 通知 错误 的 产生 、 
连接 状态 等 等 情况 。 


通常 中 断 例 程 通过 检查 物理 设备 中 的 状态 寄存 器 ,以 区 分 新 数据 包 到 达 中 断 和 数据 传输 
完毕 中 断 。 snull 接 口 工 作 原 理 与 此 类 似 , 但 是 它 的 状态 值 是 通过 软件 方法 实现 的 ,其 保 
存在 dev->priv 中 。 网 络 设备 的 中 断 处 理 例 程 类 似 于 如 下 代码 : 


static void snull_regular_interrupt (int irq, void *dev_id, struct pt_regs *regs) 
{ 
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} 


int statusword; 
struct snull _ priv *priv; 
struct snull_packet *pkt = NULL; 
/* 
* 同 往常 一 样 ， 检查 “device” 指 针 以 确保 它 指 向 了 中 断 。 
* 然后 为 “struct device *dev” 赋 值 
外 
struct net device *dev = (struct net device *)dev_id; 


/* ..， 检 查 硬件 以 确保 中 断 的 确 是 发 给 我 们 的 */ 


/* 超过 正常 范围 */ 
zt (!dev) 
return; 


/* 锁 住 设备 */ 
priv = netdev_prividev); 
spin_lock (gpriv->lock); 


/* 获得 状态 字 : 真实 的 网 络 设备 使 用 I/0O 指 令 */ 
statusword = priv~>status; 
priv->status = 0; 
if {statusword & SNULL_RX_INTR) { 
/* 将 其 发 送 给 snull_rx 进行 处 理 */ 
PKkt = priv->rx_queue; 
if (pkt) { 
Priv->rx_ queue = pkt->next; 
snull_rx(dev, pkt); 
} 
} 
if {statusword & SNULL_TX_INTR) { 
/* 一 个 传输 过 程 完毕 : 释放 skb */ 
priv->stats.tx_packets+t+; 
priv->stats.tx_bytes += priv->tx, packetlen; 
dev_kfree_skb(priv->skb); 
} 


/* 为 设备 解锁 ， 并 结束 处 理 */ 

Spin_unlock(&priv->1Lock) ; 

if (pkt) snul1l_release_buffer(pkt); /* Do this outside the lock! */ 
return; 


该 处 理 例 程 的 第 一 个 任务 是 检索 指向 正确 struct net_device 的 指针 。 访 指针 通 党 来 
自 以 参数 形式 接收 到 的 dev_iad 指 针 。 


该 处 理 程序 有 意思 的 部 分 是 对 “传输 结束 ”情形 的 处 理 。 在 这 种 情况 下 ,统计 信息 要 被 
更 新 , 而 且 要 调用 dev_kfree_skb 将 (不 再 使 用 的 ) 套 接 字 缓 冲 区 返回 给 系统 。 实 际 上 有 
三 个 类 似 的 函数 调用 : 
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dev_kfree_skb(struct sk_buff *skb); 
如 果 知 道 代码 不 在 中 断 上 下 文中 运行 则 调用 该 函数 。 由 于 snul! 没 有 实际 的 硬件 中 
断 ， 所 以 使 用 该 函数 。 

dev_kfree_ skb_irqlstruct sk_buff *skb); 


如 果 要 在 中 断 处 理 例 程 中 释放 缓冲 区 , 则 使 用 该 函数 。 此 时 使 用 该 函数 能 优化 系统 
性 能 。 


dev_kfree_skb any (struct sk buff *skb); 


如 果 相 关 代 码 既 可 以 在 中 断 上 下 文中 运行 , 也 能 在 非 中 断 上 下 文中 运行 ,使 用 该 函 
数 。 


最 后 ,如 果 驱 动 程序 暂时 终止 了 传输 队列 , 同时 使 用 netif_wake_queue 重新 启动 传输 队 
列 。 


与 传输 相反 ， 数 据 包 的 接收 不 需要 其 他 任何 特殊 的 中 断 处 理 。 调 用 snwll_rx (已 经 介绍 
过 这 个 函数 ) 就 足够 了 。 


不 使 用 接收 中 断 


用 上 面 描述 的 方法 编写 一 个 网 络 驱动 程序 的 话 , 当 接口 收 到 每 一 个 数据 包 时 , 处 理 器 都 
会 被 中 断 。 在 许多 情况 下 , 这 是 希望 的 操作 模式 ,不 会 引起 任何 问题 。 然 而 宽带 接口 每 
秒 钟 会 收 到 几 千 个 数据 包 。 使 用 这 种 中 断 方式 ， 会 使 系统 性 能 全 面 下 降 。 


为 了 能 提高 Linux 在 宽带 系统 上 的 性 能 ,网 络 子 系统 开发 者 创建 了 另外 一 种 基于 轮 询 方 
式 的 接口 ( 称 之 为 NAPI， 注 1)。 在 驱动 程序 开发 者 中 ， 轮 询 的 名 声 并 不 好 ， 他 们 经 党 
视 轮 询 为 一 种 低 效 和 无 能 的 技术 。 然而 轮 询 的 低 效率 仅 表现 在 接口 没事 情 可 做 时 。 当 系 
统 中 存在 一 个 处 理 大 流量 的 高 速 接口 时 , 每 个 时 刻 都 有 大 量 的 数据 包 需 要 处 理 。 此 时 没 
有 必要 中 断 处 理 器 ; 使 用 轮 询 技 术 处 理 到 达 接 口 的 每 一 个 数据 包 就 足够 了 。 


停止 使 用 中 断 会 减轻 处 理 器 的 负荷 。 由 于 网 络 堵塞 ， 数 据 包 处 于 网 络 代码 中 时 ，NAPI 
型 的 驱动 程序 将 不 会 把 数据 包 发 送 给 内 核 ， 这 将 能 提高 系统 的 性 能 。 出 于 多 种 原因 ， 
NAPI 驱动 程序 也 很 少 重新 排序 数据 包 。 


并 不 是 所 有 的 设备 都 能 在 NAPI 模 式 下 工作 。 一 个 NAPI 接 口 必 须 能 够 保存 多 个 数据 包 
(或 者 在 板 卡 上 , 或 者 在 内 存 的 DMA 环 中 )。 接 口 对 接收 数据 包 能 够 禁止 中 断 ， 同 时 又 








注 1: NAPI 表示 “新 APl"， 比 起 取 名 ， 网 络 黑客 更 擅长 创建 接口 。 
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能 对 传输 和 其 他 事件 打开 中 断 。 还 有 一 些 其 他 的 问题 导致 编写 一 个 NAPI 驱 动 程序 非常 
困难 ; 参看 内 核 代码 树 中 的 Documentation/networkingINAPI_HOWTO.txt， 可 了 解 详细 
情况 。 


只 有 很 少 的 驱动 程序 实现 了 NAPI 接 口 。 如 果 正 在 为 一 个 能 产生 大 量 中 断 的 接口 编写 驱 
动 程序 ， 花 点 时 间 实 现 NAPI 是 值得 的 。 


当 把 use_napi 参数 设置 为 非 零 时 装载 snull 驱动 程序 ， 则 使 用 NAPI 模 式 操作 。 在 初 
始 化 时 ， 必 须 对 一 对 额外 的 structnet_daevice 成 员 进 行 设置 : 
if (use napi) { 
dev->poll = snull_poll; 
= 2} 


dev->weight 
} 


poll 成 员 必 须 设置 为 驱动 程序 的 轮 询 函数 , 一 会 将 讨论 snull_poll 函数 。 weight 成 员 
描述 了 接口 的 相对 重要 性 : 当 资 源 紧张 时 ， 在 接口 上 能 承受 多 大 的 流量 。 对 weight 参 
数 的 设置 没有 严格 的 要 求 ; 一 般 来 说 , 10MBps 的 以 太 网 接口 设置 weight 为 16, 而 更 
快 的 接口 设置 为 64。weight 的 值 不 能 比 接口 所 能 保存 的 数据 包 数目 大 。 在 snul! 中 ， 
将 weight 设置 为 2， 以 说 明 延 迟 的 数据 包 接 收 。 


创建 NAPI 驱动 程序 中 的 下 一 步 是 修改 中 断 处 理 例 程 。 当 接口 (以 激活 接收 中 断 方 式 启 
动 ) 通知 数据 包 到 达 的 时 候 ， 中 断 程序 不 能 处 理 该 数据 包 。 相 反 它 还 要 禁止 接收 中 断 ， 
并 且 告 诉 内 核 , 从 现在 开始 启动 轮 询 接口 。 在 snull 的 “中 断 ” 处 理 程序 中 , 数据 包 接收 
中 断代 码 被 修改 成 如 下 形式 : 
if {statusword & SNULL_RX_INTR) { 
snull_rx_ints{dev，0); /* 禁止 今后 的 中 断 */ 


netif_rx_schedule(dev); 
} 


当 接口 通知 数据 包 到 来 的 时 候 , 中 断 处 理 例 程 与 接口 相 分 离 ; 此 时 需要 做 的 所 有 事 就 是 
调用 netif_rx_schedule 函数 ， 它 负责 在 此 后 某 个 时 间 点 调用 po 函数 。 


轮 询 函 数 具 有 以 下 原型 : 


int (*poll) (struct net_device *dev, int *budget); 


snull 用 以 下 代码 实现 了 轮 询 函 数 : 


static int snull_poll{struct net_device *dev, int *budget) 
{ 
int npackets = 0, quota = min{dev->quota, *budget); 
struct sk_buff *skb; 
struct snull_priv *priv = netdev_privl(dev); 
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struct snull_packet *pkt; 


while (npackets < quota && priv->rx._queue) { 
pkt = snull_dequeue_buf (dev}; 
skb = dev_alloc_skb{pkt->datalen + 2}); 
Len oD) 
if (printk_ratelimit!()) 


printk (KERN_NOTICE “snull: packet dropped\n"); 


Priv->stats.rx dropped++; 
snull_release buffer (pkt); 
continue; 

) 


memcpy (skb_put (skb, pkt->datalen), pkt->data, pkt->datalen); 


Skb->dev = dev; 
skb->protocol = eth type_trans{skb, dev); 


skb->ip_summed = CHECKSUM_UNNECESSARY; /* 不 必 检 查 它 */ 


netif_receive_skb(skb); 


/* 维护 统计 信息 */ 

npacketst++; 

Priv->stats.rx_packets+t+; 
priv->stats.rx_bytes += pkt->datalen; 
snull_release_buffer (pkt); 


} 
/* 如 果 处 理 完 所 有 的 数据 包 ， 工 作 完 成 ; 告诉 内 核 并 且 重新 打开 中 断 */ 
*budget -= npackets; 
dev->quota -= npackets; 
if (! priv->rx_queue) { 
netif_rx_complete (dev); 
snull_rx_ints(dev, 1); 
return 0; 


} 
/* 这 里 不 能 处 理 任何 事 */ 
return 1; 


} 


该 函数 的 核心 部 分 是 创建 包含 数据 包 的 skb; 这 段 代码 与 以 前 的 snull_rx 相同 。 然 而 还 
是 存在 着 一 些 区 别 : 


budget 参数 提供 了 能 传递 给 内 核 的 最 大 数据 包 数 。 在 device 结构 中 ，quota 成 
员 给 出 了 另外 一 个 最 大 值 ; 轮 询 函 数 必须 接受 二 者 之 间 的 最 小 值 , 它 还 用 实际 接收 
的 数据 包 数 减 小 了 dev->quota 和 *buGget 的 值 。 pugdet 值 是 当前 CPU 能 够 从 所 
有 接口 中 接收 数据 包 的 最 大 数目 ,而 quota 是 在 初始 化 阶段 分 配给 接口 的 weight 


二 


值 。 


用 netif_receive_skb 函数 将 数据 包 传递 给 内 核 ， 而 不 是 使 用 netif_rx。 


如 果 轮 询 函 数 能 够 处 理 在 限制 数量 范围 内 的 所 有 数据 包 , 那 么 它 将 重新 打开 接收 中 
断 , 调用 nerif_rx_complete 关闭 轮 询 函 数 ， 并 返回 0。 如 果 返 回 值 是 1， 表 示 数 据 


包 仍 在 被 处 理 状态 。 
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网 络 子 系统 确保 在 多 于 一 个 处 理 器 的 系统 上 , 指定 的 轮 询 函 数 不 会 被 同时 调用 。 但 是 对 
于 其 他 设备 来 说 ， 对 轮 询 函 数 的 调用 还 可 能 是 并 发 的 。 


链 路 状态 的 改变 


网 络 连接 要 和 本 地 系统 之 外 的 外 界 打交道 。 因 此 经 常会 受到 外 部 事件 的 影响 , 而 这 些 事 
件 又 可 能 是 瞬时 发 生 的 。 网 络 子 系统 需要 了 解 网 络 链 路 是 否 正常 ,因而 提供 了 驱动 程序 
可 以 利用 的 几 个 函数 。 


大 多 数 涉及 实际 的 物理 连接 的 网 络 技术 提供 载波 状态 信息 ; 载波 的 存在 意味 着 硬件 功能 
是 正常 的 。 例如 ,以 太 网 适配器 能 感知 线路 上 的 载波 信号 ; 当 用 户 断 开 电 缆 时 ,载波 消 
失 ， 链 路 就 不 能 正常 工作 了 。 默 认 情 况 下 ,网 络 设备 假定 存在 载波 信号 。 但 是 ,利用 下 
面 的 函数 ， 驱 动 程序 可 显 式 改变 这 个 状态 : 


void netif_carrier_ off{struct net_device *dev); 
void netif _carrier on(struct net_device *dev); 


如 果 驱 动 程序 检测 出 设备 上 不 存在 载波 ， 则 应 该 调用 merif_carrier_o 太 通知 内 核 这 一 情 
况 。 当 载 波 再 次 出 现时 , 应 调用 wetif_carrier_on。 某 些 驱 动 程序 在 发 生 重要 的 配置 变化 
时 《比如 介质 类 型 ), 也 会 调用 net_carrier_off; 一 旦 适配器 完成 了 本 身 的 重 置 ， 就 会 检 
测 到 新 的 载波 ， 而 数据 传输 可 以 重新 开始 。 


还 存在 一 个 返回 整 型 的 函数 : 
int netif_carrier_ok(struct net dGevice *dev}; 


该 函数 用 来 检测 当前 的 载波 状态 (和 设备 结构 中 反映 的 状态 一 样 )。 


套 接 字 缓 冲 区 


我 们 已 经 讨论 了 大 部 分 和 网 络 结构 相关 的 问题 , 但 尚未 详细 讲解 sk_buff 结构 。 该 结 
构 在 Linux 内 核 中 处 于 网 络 子 系统 的 核心 地 位 , 接 下 来 介绍 该 结构 的 主要 成 员 , 以 及 用 
来 操作 这 个 结构 的 重要 函数 。 


尽管 没有 严格 要 求 读者 理解 sk_buff 的 必要 ， 但 是 在 跟踪 问题 或 者 试图 优化 代码 时 ， 
如 果 能 够 看 慌 该 结构 的 内 容 ， 则 会 很 有 帮助 。 例 如 ,在 ioopback.c 中 , 会 发 现 作者 在 理 
解 sk_buff 内 部 细节 的 基础 上 对 代码 进行 了 优化 。 但 也 要 注意 如 下 敬告: 如果 编 写 的 
代码 使 用 了 sk_buff 结 构 的 内 部 细节 , 则 可 能 会 在 未 来 内 核发 布 时 出 现 问题 , 当然 , 有 
时 性 能 上 的 好 处 和 额外 的 维护 成 本 是 成 正比 的 。 
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在 这 里 不 会 描述 整个 结构 , 只 会 描述 驱动 程序 可 能 会 用 到 的 那些 成 员 。 如果 读 者 想 了 解 
更 多 的 成 员 ， 可 参考 <linux/skbuff.h> 文件 ， 其 中 定义 了 这 个 结构 以 及 操作 该 结构 的 范 
数 原 型 。 其 他 成 员 和 函数 用 法 的 相关 信息 ， 也 可 通过 grep 内 核 源 代 码 而 获得 。 


重要 的 成 员 
这 里 介绍 的 成 员 是 驱动 程序 可 能 会 访问 到 的 成 员 ， 它 们 与 排列 顺序 无 关 。 


struct net_device *dev; 


接收 和 发 送 该 缓冲 区 的 设备 。 
Union {A hs 
UnLon tT /* a Th 
Union { /ee wi) mac 


指向 数据 包 中 各 个 层 的 报 文 头 的 指针 。 联 合 中 的 每 个 成 员 是 指向 不 同 数据 结构 类 型 
的 指针 。h 中 包含 有 传输 层 报 文 头 (例如 struct tcphdr *th) 的 指针 ; nh 包含 
网 络 晨 报 文 头 (比如 struct iphdr *iph) 的 指针 ; 而 mac 中 包含 的 是 链 路 层 报 
文 头 【例如 struct ethdr *ethernet) 的 指针 。 


如 果 驱 动 程序 需要 查询 TCP 数据 包 的 源 和 目标 地 址 ,可 在 skb->h .th 中 找到 这 
些 地 址 。 头 文件 中 定义 了 可 通过 这 种 方式 访问 的 完整 报 文 头 类 型 。 

注意 网 络 驱 动 程序 要 负责 设置 传人 数据 包 的 m a c 指针 。 这 个 任务 通常 由 
ether_type_trans 函数 处 理 , 但 是 非 以 太 网 驱动 程序 需要 直接 设置 skb->mac .raw， 
将 在 “ 非 以 太 网 报 文 头 ”一 节 中 说 明 。 


unsigned char *head; 

unsigned char *data; 

unsigned char *tail; 

unsigned char *end; 
指向 数据 包 中 数据 的 指针 。head 指 向 已 分 配 空间 的 开头 ,data 是 有 效 octet (通常 
要 比 head 大 一 些 ) 的 开头 ，tail 是 有 效 octet 的 结尾 ,而 ena 指 向 tail 可 达到 
的 最 大 地 址 。 另 外 还 可 以 从 这 些 指针 得 出 可 用 缓冲 区 空间 为 skb->end - skb-> 
head， 而 当前 已 使 用 的 数据 空间 为 skb->tail - skb->data。 


unsigned int len; 

unsigned int data_len; 
len 是 在 数据 包 中 全 部 数据 的 长 度 , data_len 是 分 隔 存 储 的 数据 片段 的 长 度 。 如 
果 使 用 scatter/gather IO， 则 设置 aata_len 为 0。 
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unsigned char ip_summed; 
对 数据 包 的 校 验 策略 。 访 成员 由 蝶 动 程序 对 传 入 数据 包 进 行 设置 , 在 “数据 包 的 接 
收 ” 一 节 中 有 过 讨论 。 

unsigned char pkt_type; 
在 发 送 过 程 中 使 用 的 数据 包 类 型 。 驱动 程序 负责 将 其 设置 为 PACKET_HOST( 该 数据 
包 是 给 我 的 )、PACKET_OTHERHOST (不 , 该 数据 包 不 是 我 的 )、PACKET_BROADCAST 
或 者 是 PACKET_MULTICAST。 以 太 网 驱动 程序 不 必 显 式 修改 pkt_type， 因 为 
eth_type_trans 会 完成 这 个 工作 。 

shinfo(struct sk buff *skb); 

unsigned int shinfol(skb)->nr frags; 

skb_frag_t shinfo(skb) ->frags; 
出 于 对 性 能 方面 的 考虑 , skb 中 的 一 些 信息 分 散 存储 在 内 存 中 与 其 紧邻 的 其 他 结构 
中 。 该 “共享 信息 ”( 因为 它 共 享 于 网 络 代 码 中 的 各 个 skb 拷贝 中 ， 因 此 这 么 称呼 
它 ) 只 能 通过 shinfo 宏 来 访问 。 在 该 结构 中 有 许多 成 员 , 但 是 它们 中 的 大 多 数 已 经 
超过 了 本 章 所 讨论 的 范围 。 本 书 只 讨论 nr_frags 和 在 “分 散 / 聚 集 WO” 一 节 中 
出 现 的 标志 。 


本 书 不 是 特别 关注 结构 中 的 剩余 成 员 。 它们 用 来 维护 缓冲 区 链表 , 记录 拥有 该 缓冲 区 的 
套 接 字 所 占用 的 内 存 ， 等 等 。 


操作 套 接 字 缓冲 区 的 函数 


使 用 sk_buff 结构 的 网 络 设备 通过 一 些 正式 的 接口 函数 来 操作 该 结构 。 操 作 套 接 字 组 
冲 区 的 函数 很 多 ， 下 面 是 其 中 最 重要 的 一 些 函 数 : 


struct sk _ buff *alloc_skb(unsigned int len, int priority); 

struct sk_buff *dqev_alloc_skb(unsigned int len); 
分 配 一 个 缓冲 区 。allioc_skb 函 数 分 配 一 个 缓冲 区 并 初始 化 skb->data 和 skb->tail 
为 skb->head。dev_alloc_skb 函数 以 GFP_ATOMIC 优先 级 调用 alloc_skb， 并 在 
skb->head 和 skb->data 之 闻 保 留 一 些 空间 , 网 络 层 使 用 这 一 数据 空间 进行 优 
化 工作 ， 驱 动 程序 不 应 访问 这 个 空间 。 

void kfree_skb(struct sk_buff *skb); 

void dev_kfree_skb{struct sk_buff *skb); 

void dev_kfree_ skb_irql(lstruct sk _ buff *skb); 

void dev_kfree_skb_anyl(struct sk_buff *skb); 


释放 一 个 缓冲 区 。kfree_skb 函数 由 内 核 内 部 调用 。 驱 动 程序 应 该 使 用 一 种 
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dev_kfree_skb 形 式 的 沪 数 ,在 非 中 断 上 下 文中 使 用 dev_Kfree_skb， 在 中 断 上 下 文 
中 使 用 dev_kfree_skb_irqg，dev_kfree_skb_any 国 数 可 在 上 面 两 个 上 下 文中 使 用 。 

unsigned char *Skb_put(Sstruct sk_buff *skb, int len); 

unsigned char *__skb put(struct sk _ buff *skb, int len); 
更 新 sk_buff 结 构 中 的 tail 和 len 成 员 ; 可 用 这 些 函 数 在 缓冲 区 尾部 添加 数据 。 
每 个 函数 的 返回 值 是 skb->tail 的 先前 值 ( 换 句 话说 , 它 指向 刚刚 建立 的 数据 空 
间 )。 驱 动 程序 可 以 使 用 该 返回 值 ， 并 通过 调用 memcpy (skb_put(...)，data, 
len) 来 拷贝 数据 。 这 两 个 函数 之 间 不 同 的 是 ，skb_put 会 检查 放 入 缓冲 区 的 数据 ， 
而 skp_pul 忽 略 这 个 检查 过 程 。 

unsigned char *skb_push(struct sk_buff *skb, int len); 

unsigned char * __skb pushl(struct sk_buff *skb, int len); 
上 述 函 数 减少 skb->data, 并 增加 skb->len。 除了 数据 添加 在 数据 包 的 头 部 而 
不 是 尾部 之 外 ,其 功能 类 似 skb_put。 返回 值 指 向 刚刚 创建 的 数据 空间 。 在 传输 数 
据 包 之 前 , 可 使 用 该 函数 添加 硬件 头 。 和 前 面 一 样 ,__skb_push 只 在 是 否 检 查 可 用 
空间 上 和 skb_push 不 同 。 

int skb_tailroom(Struct sk_buff *skb); 
该 函数 返回 缓冲 区 中 可 用 空间 的 大 小 ,如 果 驱 动 程序 在 缓冲 区 中 放 入 多 于 其 能 容纳 
的 数据 , 则 系统 会 出 现 panic。 尽管 读者 可 能 会 反对 说 printk 足 够 标记 该 错误 了 , 但 
内 存 破坏 对 系统 非 党 有害, 因此 内 核 开发 人 员 决 定 在 这 种 情况 下 采取 最 后 的 决定 性 
动作 ， 即 panic。 实 际 情况 下 ， 如 果 正 确 分 配 了 缓冲 区 ， 就 不 需要 检查 可 用 空间 。 
因为 驱动 程序 通常 可 在 分 配 缓冲 区 之 前 获得 数据 包 的 大 小 , 因此 , 只 有 被 严重 破坏 
的 驱动 程序 才 会 向 缓冲 区 中 放 入 太 多 数据 , 这 时 , 作为 惩罚 , 内 核 就 会 出 现 panic。 


int skb_headroom(struct sk_buff *skb); 


返回 在 data 之 前 可 用 的 空间 的 数量 ， 也 即 有 多 少 octet 能 够 保存 在 缓冲 区 。 


void skb_reservel(lstruct sk_buff *skb, int len); 
这 个 函数 增加 data 和 tail。 该 函数 可 在 填充 缓冲 区 之 前 保留 报 文 头 空间 
(headroom )。 大 多 数 以 太 网 接口 在 数据 包 之 前 保留 2 个 字 节 , 这 样 IP 头 可 在 14 字 
节 的 以 太 网 头 之 后 , 在 16 字 节 边 界 上 对 齐 。 snull 也 这 样 做 了 。 在 “数据 包 的 接收 ” 
一 节 中 ， 为 了 避免 引入 额外 的 概念 ， 我 们 没有 提 及 这 一 点 。 


unsigned char *skb _ pulll(struct sk_buff *skb, int len); 
从 数据 包头 中 删除 数据 。 驱动 程序 无 需 使 用 这 个 函数 ,包含 该 函数 只 是 为 了 完整 性 
的 需要 。 它 减少 skb->len 并 增加 skb->data; 这 是 从 传人 数据 包 的 头 部 剥离 硬 
件 头 (以 太 网 或 等 价 硬件 ) 所 使 用 的 方法 。 
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int skb_is _ nonlinear{struct sk buff *skb); 

如 果 为 使 用 分 散 /聚集 IO 而 将 skb 分 解 为 多 个 数据 片段 ， 则 返回 真 值 。 
int Skb_headlen(struct Sk_buftf *skb); 

返回 skb 第 一 个 段 的 长 度 ( 该 部 分 指向 了 skb->data)。 


void *kmap_skb_frag (skb_frag 七 *frag) ; 

void kunmap_skb_frag{void *vaddr); 
如 果 要 在 内 核 中 直接 访问 非 线 性 skb 中 的 数据 片段 ， 这 些 函 数 负责 映射 和 解除 映 
射 。 由 于 使 用 了 原子 的 kmap， 因 此 不 能 同时 映射 多 个 数据 片段 。 


内 核定 义 了 其 他 一 些 操作 套 接 字 缓冲 区 的 函数 , 但 这 些 函 数 主要 用 于 上 以 网 络 代码 , 驱 
动 程序 不 需要 这 些 国 数 。 


MAC 地 址 解析 


以 太 网 通信 中 有 一 个 有 趣 的 问题 , 即 如 何 将 IP 号 和 MAC 地址 (接口 的 唯一 硬件 ID) 关 
联 起 来 。 大 部 分 协议 也 有 类 似 的 问题 , 但 在 这 里 重点 讲述 类 以 太 网 的 情形 。 本 节 将 提供 
有 关 该 问题 的 完整 描述 ,其 中 涉及 到 三 种 情形 : ARP、 无 ARP 的 以 太 网 头 (类 似 plip)， 
以 及 非 以 太 网 头 。 


在 以 太 网 中 使 用 ARP 


通常 处 理 地 址 解析 的 方法 是 使 用 ARP， 即 地 址 解析 协议 。 幸 运 的 是 ，ARP 由 内 核 维护 ， 
而 以 太 网 接口 不 需要 做 任何 特殊 工作 就 能 支持 ARP。 只 要 在 打开 时 正确 设置 dev->addr 
和 dev->addr_len， 驱动 程序 就 无 需 担 心 将 IP 号 解析 为 MAC 地址 这 件 事 ; ether_setup 
将 把 正确 的 设备 函数 赋予 dev->hard_header 和 dev->rebuild header。 


尽管 通常 是 由 内 核 处 理 地 址 解析 的 细节 (并 缓存 其 结果 )， 但 它 要 调用 接口 的 驱动 程序 
来 帮助 建立 数据 包 。 毕竟 驱动 程序 了 解 物理 层 数 据 包 头 的 细节 , 而 网 络 代码 的 作者 试图 
将 内 核 的 其 余部 分 和 ARP 隔离 开 来 。 为 此 , 内 核 调用 驱动 程序 的 hard_header 函数 , 将 
ARP 查 询 的 结果 安排 在 数据 包 的 适当 位 置 . 通 常 以 太 网 驱动 程序 编写 者 无 需 了 解 这 个 过 
程 一 一 通用 的 以 太 网 代码 会 处 理 这 一 切 。 


重 载 ARP 


类 似 plip 的 简单 点 对 点 网 络 接口 可 从 以 太 网 头 中 获得 一 些 信 息 ， 但 可 避免 因 来 回 发 送 
ARP 数据 包 而 带 来 的 开销 。snull 中 的 示例 代码 也 属于 这 种 网 络 设备 类 型 。snull 不 能 使 
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用 ARP,， 这 是 因为 驱动 程序 修改 了 正在 传输 的 数据 包 中 的 IP 地 址 ,而 同时 ARP 数据 包 
也 修改 了 了 下 地 址 。 尽 管 可 以 实现 一 个 简单 的 ARP 应 答 生成 器 ,但 解释 直接 处 理 物理 层 
数据 包头 的 方法 ， 要 更 为 直观 一 些 。 


如 果 设 备 希 望 使 用 常用 的 硬件 头 , 而 不 运行 ARP, 则 需要 重 载 默认 的 dev->hard_header 
函数 。 下 面 是 snull 对 该 函数 的 实现 ， 代 码 很 短 : 
int snull_header (struct sk buff *skb, struct net_device *dev, 


unsigned short type, void *daddr, void *saddr, 
unsigned int len) 


struct ethhdr *eth = (struct ethhar *})skb _ push(skb,ETH_HLEN) ; 


eth->h_proto = htons'(type}; 
memcpy (eth->h_source, saddr ? saddr : dev->dev_addr, dev->addr_len); 
memcpy (eth->h_dest, daddr ? daddr : dev->dev_addr, dev->addr_len); 
eth->h_dest [ETH_ALEN-1] “^= 0x01; /* dest 是 当前 值 异 或 1 的 结果 */ 
return (dev->hard header_len); 

} 


这 个 函数 根据 内 核 提 供 的 信息 , 将 其 格式 化 成 一 个 标准 的 以 太 网 头 。 它 同时 切换 了 目标 
以 太 网 地 址 的 一 个 位 ， 其 原因 将 在 后 面 介 绍 。 


在 接口 接收 到 一 个 数据 包 了 时，eth_type_trans 会 以 两 种 方式 使 用 硬件 头 。 我 们 已 经 在 
snull_rx 中 看 到 过 这 个 函数 : 


skb->protocol = eth_type_trans{(Skb，dev) : 


该 函数 从 以 太 网 头 中 获得 协议 标识 符 (这 里 是 ETH_P_IP); 它 还 对 skb->mac .raw 进 
行 赋值 ， 从 数据 包 数 据 中 删除 硬件 头 (使 用 skb_pul!)， 并 设置 skb->pkt_type。 
skb->pkt_type 在 分 配 skb 时 赋予 其 默认 值 为 PACKET_HOST (表示 这 个 数据 包 是 发 
送 到 该 主机 的 ), 而 eth_type_trans 会 根据 以 太 网 的 目标 地 址 修改 它 。 如果 目 标 地 址 和 接 
收 它 的 接口 地 址 不 匹配 , 会 将 pkt_type 设 置 为 PACKET_OTHERHOST。 接 下 来 除非 该 接口 
处 于 混杂 模式 ， 或 者 在 内 核 中 设置 了 数据 包 转 发 ，netif_rx 会 丢弃 所 有 类 型 为 
PACKET_OTHERHOST 的 数据 包 。 为 此 ，snull_header 小 心 处 理 ， 以 保证 目标 硬件 地 址 和 
“接收 ”接口 的 地 址 的 匹配 。 


如 果 接 口 是 点 对 点 链 路 ， 则 不 希望 接收 非 预期 的 组 播 数据 包 。 为 了 避免 这 个 问题 , 要 记 
住 第 一 个 octet 的 最 低位 (LSB ) 为 0 的 目标 地 址 是 发 送 到 单个 主机 的 (也 就 是 说 , 它 要 
么 是 PACKET_HOST,， 要 么 是 PACKET_OTHERHOST)。plip 驱动 程序 使 用 0xfc 作为 其 硬件 
地 址 的 第 一 个 octet， 而 snull 使 用 0x00。 这 两 个 地 址 均 可 以 在 类 以 太 网 的 点 对 点 链 路 
中 工作 。 
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非 以 太 网 头 


刚刚 讨论 了 硬件 头 中 除 目 标 地 址 之 外 ,还 包含 其 他 一 些 信息 ,其 中 最 重要 的 是 通信 协议 。 
现在 介绍 硬件 头 是 如 何 封装 相关 信息 的 。 如 果 读 者 需要 了 解 细节 可 从 内 核 源 代码 或 特 
定 传输 介质 的 技术 文献 中 找到 。 大 多 数 驱 动 程序 编写 者 可 忽略 这 个 小 节 , 而 仅仅 使 用 以 
太 网 的 实现 。 


值得 注意 的 是 , 并 不 是 所 有 的 信息 都 能 为 各 个 协议 所 提供 。 类 似 plip 的 点 对 点 链 路 或 者 
small 可 在 不 减少 一 般 性 的 情况 下 避免 传输 整个 以 太 网 头 。 前面 描述 过 的 由 snul!_header 
实现 的 hard_header 设备 函数 接收 从 内 核 传递 出 来 的 信息 一 一 协议 层 和 硬件 地 址 。 它 
还 从 type 参数 中 接收 16 位 的 协议 号 ; 例如 IP 协 议 由 ETH_P_IP 标 识 。 驱动 程序 希望 
能 够 向 接收 主机 正确 地 递交 数据 包 数 据 以 及 协议 号 。 点 对 点 链 路 可 在 硬件 头 中 省 略 地 址 ， 
而 仅仅 传输 协议 号 ， 这 是 因为 数据 包 的 发 送 和 源 及 目标 地 址 无 关 。 一 个 仅仅 传输 IP 数 
据 包 的 链 路 ， 甚 至 可 以 避免 传输 任何 的 硬件 头 。 


当 链 路 的 另 一 端 接收 到 数据 包 时 ， 驱 动 程序 的 接收 函数 应 该 正确 设置 skb->protocol、 
skb->pkt_type 和 skb_mac.raw 成 员 。 


skb->mac .raw 是 一 个 字符 指针 ， 由 上 层 网 络 代码 (例如 net/ipv41arp.c) 实现 的 地 址 
解析 机 制 使 用 。 它 必须 指向 与 Qev->type 匹配 的 一 个 机 器 地 址 。 设备 类 型 的 可 能 值 定 
义 在 <linux/if_arp.h> 中 ; 以 太 网 接口 使 用 ARPHRD_BETHER 。 作 为 示例 ， 下 面 是 
eth_type_trans 处 理 已 接收 数据 包 的 以 太 网 头 的 代码 : 

skb->mac.raw = skb->data; 

skb_pulll(skb, dev->hard_header len}); 
在 最 简单 的 情况 下 (没有 头 的 点 对 点 链 路 ) ，skb->mac.raw 可 指向 一 个 静态 的 缓 促 区 ， 
其 中 包含 接口 的 硬件 地 址 ,而 protocol 可 被 设置 为 ETH_P_IP, packet_type 可 保留 其 
歌 认 值 ， 即 PACKET_HOST。 


因为 每 个 硬件 类 型 都 是 唯一 的 , 因此 很 难 给 出 比 上 述 讨 论 更 多 的 建议 。 但 内 核 中 充满 了 
实际 的 例子 。 例 如 可 以 参考 AppleTalk 驱动 程序 (drivers/net/appletalk/icops.c), 红外 驱 
动 程序 (drivers/net/irdal/smc_ircc.c), 或 者 PPP 驱动 程序 (drivers/inet/ppp_generic.c). 


定制 ioctl 命令 


读者 已 经 知道 了 在 套 接 字 上 实现 的 ioct! 系统 调用 ; SIOCSIFADDR 和 SIOCSIFMAP 是 
“ 套 接 字 ioct1” 的 两 个 例子 。 现 在 讨论 网 络 代 码 如 何 使 用 该 系统 调用 的 第 三 个 参数 。 
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当 为 某 个 套 接 字 使 用 ioct! 系统 调用 时 ， 命 令 号 是 定义 在 <linux/sockios.h> 中 的 某 个 符 
号 ， 而 函数 sock_iocti 直接 调用 一 个 协议 相关 的 函数 (这 里 的 “协议 ” 指 主要 的 网 络 协 
议 ， 例如 IP 或 AppleTalk)。 


任何 协议 层 不 能 识别 的 iocr 命令 都 会 传递 到 设备 层 。 这 些 设备 相关 的 ioct! 命 令 从 用 户 
空间 接受 第 三 个 参数 ， 即 一 个 struct ifreq * 指针 。 这 个 结构 在 <linux/if.h> 中 定 
义 。SIOCSIFADDR 和 SIOCSIFMAP 命 令 实 际 使 用 了 ifreaq 结 构 。SIOCSIFMAP 的 其 
他 参数 ， 尽 管 被 定义 为 fmap， 但 其 实 只 是 ifreq 的 一 个 成 员 。 


除了 使 用 标准 化 调用 之 外 , 每 个 接口 可 以 定义 它 自己 的 ioc 命令。 例如 书记 接口 允许 通 
过 ioctz 修改 接口 内 部 的 超时 值 。 套 接 字 的 iocl 实现 能 够 识别 16 个 接口 私有 的 命令 : 从 
SIOCDEVPRIVATE 到 SIOCDEVPRIVATE+15 ( 注 2)。 


如 果 识 别 出 是 上 述 命 令 之 一 , 则 在 相关 接口 驱动 程序 中 调用 aev->do_ioct1l。 该 函数 
接收 相同 的 struct ifreq * 指针, 其 与 常用 ioct! 函 数 使 用 的 一 样 。 它 的 原型 如 下 : 


int {*do_ioctl) (struct net_device *dev, struct ifreq *ifr, int cmd); 


ifr 指针 指向 内 核 空间 的 地 址 ， 其 中 保存 有 用 户 传递 结构 的 复 本 。 在 do_ioctl 返回 时 ， 
污 结 构 将 复制 回 用 户 空间 ; 这 样 驱动 程序 可 使 用 私有 命令 来 接收 和 返回 数据 。 


设备 特有 的 命令 可 选择 使 用 struct ifreg 中 的 成 员 ， 但 是 它们 已 经 具有 标准 的 含义 ， 
而 且 驱 动 程序 也 很 难 使 这 个 结构 适应 自己 的 需求 。 ifr_data 成 员 是 一 个 caddr_t 型 数 
据 (一 个 指针 )， 可 用 来 满足 设备 特有 的 和 需求。 驱动 程 序 和 调用 ioct! 命 令 的 程序 ， 要 在 
ifr_data 的 使 用 上 达成 一 致 . 例如 pppstats 使 用 设备 特有 的 命令 从 ppp 接口 驱动 程序 
中 检索 信息 。 

在 这 里 讲解 4o_ioct! 的 实现 不 太 值得 , 但 通过 本 章 以 及 内 核 中 的 实例 , 读者 应 该 能 够 纺 


写 一 个 满足 自己 需求 的 do_ioct! 函数 。 但 要 注意 ，plip 使 用 ifr_data 的 方法 不 正确 ， 
所 以 不 应 作为 ioct! 的 实现 样 例 。 


统计 信息 

驱动 程序 需要 的 最 后 一 个 函数 是 get_stats。 这 个 函数 返回 设备 统计 结构 的 指针 。 它 的 实 
现 非常 简单 ; 下 面 给 出 的 这 个 实现 甚至 能 够 用 于 同一 驱动 程序 管理 多 个 接口 的 情况 ， 
为 统计 信息 一 般 保存 在 设备 的 数据 结构 中 。 





注 2: 注意 ,根据 <linux/sockios.h>、SIOCDEVPRIVATE 命令 已 经 被 度 弃 。 但 是 ， 取 代 访 命 
今 的 命令 尚 不 明晰 ， 因 此 ， 大 量 的 驱动 程序 仍 在 使 用 这 些 命令 。 
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struct net_device_stats *snull_stats(struct net_device *dev) 
{ 

struct snull_priv *priv = netdev _ priv{dev}); 

return &priv->stats; 
} 


用 来 返回 实际 统计 信息 的 代码 分 布 在 的 驱动 程序 中 各 处 ， 在 那里 许多 成 员 都 被 更 新 了 。 
下 面 的 清单 给 出 了 net_device_stats 结构 中 最 有 意思 的 一 些 成 员 : 


unsigned long rx packets; 
unsigned long tx_packets; 


接口 成 功 传递 的 输入 和 输出 数据 包 的 总 量 。 

unsigned long rx_bytes; 

unsigned long tx_bytes; 
接口 接收 和 发 送 的 字 节 总 数 。 

unsigned long rx errors; 

unsigned long tx_errors; 
错误 接收 和 发 送 的 个 数 。 在 数据 包 传 输 过 程 中 ， 可 能 出 现 无 数 错误 ， 因 此 
net_device_stats 结 构 中 包含 了 6 个 接收 错误 计数 器 , 以 及 5 个 发 送 错误 计数 
器 。 完 整 的 清单 可 见 <linux/netdevice.h>。 如 果 可 能 ,驱动 程序 应 该 维护 详细 的 错 
误 统计 ， 因 为 这 对 系统 管理 员 跟 踪 问 题 非常 有 帮助 。 

unsigned long TxX_dropped; 

unsigned long tx_dropped:; 
在 接收 和 发 送 过 程 中 丢弃 的 数据 包 数 目 ,在 没有 可 用 内 存 保存 数据 包 数 据 时 , 会 将 
数据 包 丢 弃 。tx_dropped 很 少 用 到 。 

unsigned long collisions; 


因 介质 拥堵 而 导致 的 冲突 个 数 。 


unsigned long multicast; 


接收 到 的 组 播 数 据 包 个 数 。 


这 里 需要 重复 强调 的 是 , 即使 在 接口 被 关闭 时 , get_stats 函数 也 可 能 会 在 任意 时 间 被 调 
用 ， 因 此 只 要 net_device 结构 存在 ， 驱 动 程序 就 必须 保存 统计 信息 。 


组 播 


组 播 数据 包 是 期 望 由 多 于 一 个 主机 、 但 不 是 所 有 主机 接收 的 网 络 数据 包 。 这 一 功能 通过 
碾子 针对 一 组 主机 的 特殊 硬件 地 址 而 完成 。 发 送 到 其 中 一 个 特殊 地 址 的 数据 包 , 应 该 由 
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该 组 中 的 所 有 主机 接收 到 。 对 以 太 网 而 言 , 组 播 地 址 在 目标 地 址 的 第 一 个 octet 的 最 低位 
设置 为 1， 而 所 有 设备 板 卡 将 自己 的 硬件 地 址 的 相应 位 清 零 。 


对 主机 分 组 和 硬件 地 址 的 处 理由 应 用 程序 和 内 核 执行 ,而 接口 的 驱动 程序 无 需 处 理 这 些 
问题 。 


组 播 数 据 包 的 传输 并 不 困难 , 因为 它们 看 起 来 和 其 他 数据 包 没 有 两 样 。 接口 在 通信 介质 
上 传输 这 些 数 据 包 , 但 并 不 关心 它们 的 目标 地 址 。 内 核 负 责 赋予 一 个 正确 的 硬件 目标 地 
址 ; 如 果 定 又 了 hard_hpeader 设备 函数 ， 则 不 必 查 看 内 核准 备 的 数据 。 


内 核 在 任意 给 定时 刻 均 要 跟踪 组 播 地 址 。 组 播 的 主机 清单 可 能 会 频繁 改变 , 因为 这 是 可 
在 任意 给 定时 间 内 运行 的 应 用 程序 的 功能 , 而 且 是 用 户 的 选择 。 驱 动 程序 应 该 负责 接收 
感 兴趣 的 组 播 地 址 清单 ,然后 将 发 送 到 这 些 地 址 的 任意 数据 包 交 付 给 内 核 。 驱动 程序 实 
现 组 播 清单 的 方法 , 在 某 种 程度 上 依赖 于 底层 硬件 的 工作 方式 。 通常 来 说 , 考虑 组 播 时 ， 
硬件 可 划分 为 三 类 : 


。 ”不 能 处 理 组 播 的 接口 。 这 种 接口 要 么 接收 直接 发 送 到 其 硬件 地 址 的 数据 包 ( 包括 广 
播 数据 包 ), 要 么 接收 所 有 数据 包 。 它 们 只 能 通过 接收 所 有 数据 包 而 接收 组 播 的 数 
据 包 , 这 样 就 可 能 因为 大 量 “ 不 感 兴趣 ”的 数据 包 而 会 使 操作 系统 性 能 下 降 。 通常 
不 会 将 这 类 接口 看 成 是 能 够 进行 组 播 的 接口 ,因此 ,驱动 程序 不 能 在 aev->flags 
中 设置 IFF_MULTICAST。 

点 对 点 接口 是 一 种 特殊 情况 , 因为 它们 不 会 执行 任何 硬件 过 滤 , 而 是 接收 所 有 的 数 
据 包 。 

。 ”能 够 区 分 组 播 数据 包 和 其 他 数据 包 ( 主机 到 主机 或 者 广播 ) 的 接口 。 可 指示 这 类 接 
口 接收 每 个 组 播 数据 包 , 并 且 让 软件 确定 主机 是 否 为 有 效 的 接收 者 。 这 种 情况 下 引 
入 的 开销 是 能 够 接受 的 ， 因 为 典型 网 络 中 的 组 播 数据 包 数 目 比 较 少 。 

。 ”能 够 为 组 播 地 址 进行 硬件 检测 的 接口 。 可 传递 给 这 类 接口 一 个 可 接收 的 组 播 地 址 清 
单 , 然后 接口 将 忽略 其 他 的 组 播 数 据 包 。 这 对 内 核 来 讲 是 最 好 的 情形 , 因为 内 核 不 
需要 在 丢弃 “不 感 兴趣 的 ”数据 包 上 浪费 处 理 器 时 间 。 


因为 第 三 种 设备 类 型 是 最 为 常见 的 , 所 以 内 核 不 断 利用 这 类 高 性 能 接口 的 能 力 。 为 此 内 
核 会 在 有 效 组 播 地 址 发 生变 化 时 通知 驱动 程序 , 并 且 将 新 的 清单 传递 给 驱动 程序 , 这 样 
接口 就 可 以 根据 新 的 信息 更 新 其 硬件 过 滤器 。 


对 组 播 的 内 核 支持 


对 组 播 数据 包 的 支持 由 如 下 几 项 组 成 : 一 个 设备 函数 .一 个 数据 结构 以 及 若干 设备 标志 。 
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void (*dev->set_multicast_ list) (struct net_device *dev); 
当 与 设备 相关 的 机 器 地 址 清单 发 生变 化 时 ， 调 用 这 个 设备 函数 。 该 函数 还 在 
dev->flags 被 修改 时 调用 ， 因 为 某 些 标志 (比如 IFF_PROMISC) 也 需要 对 硬件 
过 滤器 进行 重新 编程 。 这 个 函数 接收 到 一 个 指向 net_device 结 构 的 指针 并 返回 
void。 如 果 驱 动 程序 不 想 实现 这 个 方法 的 话 ， 可 设置 这 个 成 员 为 NULL。 
struct dev mc_ list *dev->mc_list; 
这 是 与 设备 关联 的 所 有 组 播 地 址 形成 的 一 个 链表 ,该 结构 的 实际 定义 将 在 本 节 末 尾 
int dev->mc_count; 
链表 中 的 节点 数目 。 这 个 信息 有 点 元 余 , 但 检查 mc_count 是 否 为 零 ， 是 检查 链表 
的 一 个 便捷 方法 。 
IFF._MULTICAST 
除非 驱动 程序 在 dev->flags 中 设置 这 个 标志 ,接口 是 不 会 请 求 处 理 组 播 数据 包 的 。 
虽然 如 此 ,但 当 dev->flags 发 生变 化 时 ,内核 会 调用 驱动 程序 的 set_multicast_list 
函数 。 这 是 因为 接口 未 被 激活 的 时 候 ， 组 播 清单 可 能 已 经 发 生 改 变 。 
IFF_ALLMULTI 
这 个 标志 由 网 络 软件 在 aev->flags 中 设置 , 用 来 告诉 驱动 程序 检索 来 自 网 络 的 所 
有 组 播 数据 包 . 这 在 组 播 路 由 被 使 能 时 发 生 。 如果 设 置 了 这 个 标志 , dev->mc_list 
不 应 该 用 来 过 滤 组 播 数 据 包 。 
IFF_PROMISC 
当 接 口 被 设置 为 混杂 模式 时 ,在 dev->flags 中 设置 该 标志 。 不 管 Gev->mc_list 
中 含有 哪些 主机 地 址 ， 接 口 都 应 该 接收 所 有 的 数据 包 。 


驱动 程序 开发 人 员 需 要 的 最 后 一 点 知识 是 dev_mc_1ist 结 构 的 定义 ,该 结构 在 <linux/ 
netdevice.h> 中 定义 : 


struct dev_mc_list { 


struct dev mc_list *next; /* 列表 中 的 下 一 个 地 址 */ 
__u8 dmi_addr [MAX_ADDR_LEN] ; /* 硬件 地 址 */ 
unsigned char dmi_addrlen; /* 地 址 长 度 */ 

int dmi_users' /* 用 户 的 数量 */ 

int dmi_gusers; /* 组 的 数量 */ 


l 


因为 组 播 和 硬件 地 址 与 实际 的 数据 包 传输 是 无 关 的 ,所 以 这 个 结构 在 各 种 网 络 实现 上 是 
可 移植 的 , 通过 一 个 octet 字 符 捉 和 长 度 来 标识 每 个 地 址 , 这 点 和 Gev->dev_addr 类 似 。 
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一 个 典型 实现 
描述 set_multicast_list 的 最 好 方法 是 使 用 一 些 伪 代 码 。 


下 面 的 函数 是 一 个 功能 完整 的 驱动 程序 对 该 函数 的 一 个 典型 实现 .这 个 驱动 程序 所 控制 
的 接口 具有 一 个 复杂 的 硬件 数据 包 过 滤器 , 它 可 以 保存 主机 能 接收 的 组 播 地 址 表 。 表 的 
最 大 尺寸 是 FF_TABLE_SIZE。 


具有 ff_ 前 级 的 函数 表示 该 函数 是 一 个 针对 硬件 的 操作 : 


void ff_set_multicast_ list(struct net_device *dev) 
{ 
struct dev_mc_list *mcptr:; 


if (dev->flags & IFF_PROMISC) { 
ff_get_all packets!{); 
return; 


/* 如 果 不 能 处 理 完 所 有 的 地 址 、 则 获得 所 有 组 播 数据 包 并 且 在 软件 中 保存 它们 */ 

if {dev->flags & IFF_ALLMULTI || dev->mc_count > FF_TABLE_SIZE) { 
ff_get_all_multicast_packets(); 
return; 


| 
/* 没有 组 播 ? 只 是 获得 自己 的 数据 */ 


if (dev->mc_count = = 0) { 
ff_get_only_own_packets{); 
return; 


} 
/* 在 硬件 过 滤器 中 保存 所 有 的 组 播 地址 */ 
ff_ clear mc_list(); 
for (mc_ptr = dev->mc_list; mc_ptr; mec_ptr = mc_ptr->next) 
ff_store_mc_address (mc_ptr->dmi_addr); 
ff_get_packets_in mlticast_list{(); 
} 


如 果 接 口 不 能 在 硬件 过 滤器 中 保存 针对 传人 数据 包 的 组 播 表 , 则 可 以 简化 这 个 实现 。 这 
种 情况 下 ，FF_TABLE_SIZE 减 小 为 0， 也 不 需要 最 后 四 行 代 码 。 


正如 前 面 提 到 ， 即 使 不 能 处 理 组 播 数 据 包 的 接口 ， 也 需要 实现 set_multicast_list 方 法 ， 
以 便 对 aev->flags 的 变化 做 出 响应 。 这 种 情况 称 之 为 “ 非 完整 ”实现 。 其 实现 非常 
简单 ， 代 码 如 下 所 示 : 


void nft_set_multicast_list(struct net_device *dev) 
{ 
if (dev->flags & IFF_PROMISC) 
nf_get_all packets(}; 
else 
nf_get_only._own_packets(); 
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IFF_PROCMISC 的 实现 非常 重要 , 否则 用 户 就 无 法 运行 icpdump 或 其 他 网 络 分 析 器 。 另 
一 方面 ， 如 果 接 口 运 行 在 点 对 点 链 路 上 ， 就 根本 没有 必要 实现 set_multicast_list， 因 为 
用 户 总 是 会 接收 到 所 有 的 数据 包 。 


其 他 知识 点 详解 
本 节 将 讲述 一 些 网 络 驱动 程序 作者 感 兴趣 的 话题 ,其 目的 是 让 读者 沿 着 正确 的 方向 学 习 。 
如 果 要 知道 所 有 相关 知识 点 的 爹 貌 ， 在 内 核 源 代码 上 花 许多 时 间 是 必须 的 。 


对 介质 无 关 接 口 的 支持 

介质 无 关 接 口 (Media Independent Interface ，MII) 是 一 个 IEEE802.3 标准 ， 它 描述 了 
以 太 网 收发 器 是 如 何 与 网 络 控制 器 连接 的 。 在 市 场 上 销售 的 大 量 产品 都 有 这 样 的 接口 。 
如 果 要 为 MII 控 制 器 写 一 个 驱动 程序 , 仔细 学 习 内 核 中 的 通用 MII 支 持 层 , 会 使 这 个 任 
务 变 得 简单 。 


为 了 使 用 通用 MII 层 ,需要 包含 头 文件 <linux/imii.h>。 无 论 是 否 使 用 全 双 工 模式 ， 都 需 
要 用 收发 器 的 物理 ID 填写 mii_if_info 结 构 。 为 使 用 mii_if_info 结构， 还 需要 
使 用 两 个 函数 : 


int (xmdio_read) (Struct net_device *dev, int phy_id, int location); 
void (*mdio write) (struct net_device *dev, int phy_id, int location, int val); 


正如 读者 期 望 的 那样 ， 这 两 个 函数 实现 了 与 特定 MII 接口 的 通信 。 


通用 MII 代 码 还 提供 了 一 套用 于 查询 和 修改 收发 器 操作 模式 的 函数 , 其 中 的 驱动 函数 都 
被 设计 成 与 ethtool 工具 (在 下 一 节 讲 述 ) 配合 使 用 。 参 看 <linux/mii.h> 和 drivers/net/ 
mii.c 以 了 解 实现 细节 。 


ethtool 支持 

ethtool 是 为 系统 管理 员 提供 的 用 于 控制 网 络 接口 的 工具 。 只 有 当 驱 动 程序 支持 ethtool 
时 , 使 用 ethtool! 才 能 控制 包括 速度 、 介质 类 型 、 双 工 操作 、 DMA 设 置 .硬件 校 验 、LAN 
唤醒 操作 在 内 的 许多 接口 参数 。 读 者 可 以 从 站 点 http://sf.net/iprojects/gkernel/ 下 载 


etphtool。 


在 <linux/ethtool.h> 中 含有 为 支持 ethtool 的 相关 声明 。 其 核心 是 一 个 ethtool_ops 类 
型 的 结构 , 它 包含 了 ethtool 支 持 的 全 部 24 个 函数 。 这 些 函 数 中 的 大 多 数 是 相互 关联 的 ， 
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请 参看 <linux/ethtool.h> 了 解 其 细节 。 如 果 驱 动 程序 使 用 了 MII 层 ， 可 以 使 用 
mii_ethtool_gset 和 mii_ethtool_sset 以 分 别 实现 get_settings 和 set_settings 函数 。 


为 了 使 ethrool 能 与 设备 配合 工作 ,必须 在 net_device 结 构 中 设置 指向 ethtool_ops 
结构 的 指针 。 因 此 可 以 使 用 宏 SET_ETHTOOL_OPS (在 <linux/netdevice.h> 中 定义 ) 完 
成 这 一 任务 。 请 注意 即使 已 经 关闭 了 接口 ，ethtool 函数 依然 能 够 被 调用 。 


Netpoll 


“Netpoel” 是 相当 晚 (2.6.5) 才 出 现在 网 络 栈 中 的 ; 它 出 现 的 目的 是 让 内 核 在 网 络 和 
LO 子 系统 尚 不 能 完整 可 用 时 ， 依 然 能 发 送 和 接收 数据 包 。 其 用 于 网 络 控制 台 和 远程 内 
核 调试 中 。 无 论 如 何 , 在 驱动 程序 中 支持 netpoll 不 是 必需 的 , 但 是 它 却 能 让 驱动 程序 在 
某 些 时 候 特别 有 用 。 在 许多 情况 下 ， 对 netpoll 的 支持 是 相对 容易 的 。 


实现 netpoll 的 驱动 程序 需要 实现 poll_controller 函数 。 该 函 数 的 作用 是 在 缺少 设备 中 断 
时 ， 还 能 对 控制 器 做 出 响应 。 几 乎 所 有 的 poll_controller 国 数 都 有 如 下 的 形式 : 
void my_poll_controller{struct net_device *dev) 
{ 
disable_ device. interrupts (dev); 
call_interrupt_handler (dev->irq, dev, NULL)}); 
reenable_device_interrupts (dev); 


} 


从 根本 上 讲 ，poli_controller 函数 只 是 模拟 了 来 自 指定 设备 的 中 汤 。 


这 个 小 节 给 出 了 本 章 介 绍 过 的 概念 的 快速 参考 ,同时 解释 了 驱动 程序 应 该 包含 的 每 个 头 
文件 。 但 是 net_device 和 sk_buff 结构 的 成 员 不 会 在 这 里 重复 。 


#include <linux/netdevice.h> 
这 个 头 文件 保存 有 net_device 和 net_device_stats 结 构 的 定义 , 并 包含 了 
网 络 驱 动 程序 需要 的 其 他 几 个 头 文件 。 
struct net_device *alloc netdev{int sizeof_priv, char *name, void 
{(*setup) (struct net_device *); 
struct net_device *alloc_etherdev(int sizeof_priv); 


void free netdev(struct net_device *dev); 


分 配 和 释放 net_device 结构 的 函数 。 
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int register netdevlstruct net_device *dev); 

void unregister_netdev (struct net_device *dev); 
注册 和 注销 一 个 网 络 设备 。 

void *netdev_priv(struct net_device *dev); 
获得 指向 网 络 设备 结构 中 驱动 程序 私有 数据 区 指针 的 函数 。 

struct net_ device stats; 
保存 设备 统计 信息 的 结构 。 

netif_start queuel(struct net_device *dev); 

netif_stop. queue(struct net_device *dev); 

netif_wake queue(struct net_ device *dev}); 
上 述 函 数控 制 外 发 数据 包 向 驱动 程序 的 传递 。 在 调用 netif_start_queue 之 前 , 不 会 
传输 任何 数据 包 。netif_stop_queue 暂停 传输 ,而 netif_wake_queue 重新 启动 队列 
并 通知 网 络 层 重新 启动 数据 包 的 传输 。 

skb_shinfo(struct sk_buff *skb); 
提供 对 数据 包 缓存 区 中 “共享 信息 ”访问 的 宏 。 

void netif_rx(struct sk_buff *skb); 
调用 (包括 中 断 期 间 ) 这 个 函数 可 通知 内 核 已 经 接收 到 一 个 数据 包 , 并 封装 人 一 个 
套 接 字 缓冲 区 。 

void netif_rx_schedule (dev); 
调用 该 函数 通知 内 核 数 据 包 已 经 存在 , 并 且 在 接口 上 启动 轮 询 机 制 ; 它 只 在 NAPI 
驱动 程序 中 使 用 。 


int netif_receive_skbl(struct sk_buff *skb); 

void netif _ rx_ complete{struct net_device *dev); 
这 两 个 函数 只 在 NAPI 驱 动 程序 中 使 用 .NAPI 中 的 netif_receive_skb 函 数 与 netif_rx 
等 价 ; 它 将 数据 包 发 送 给 内 核 . 当 NAPI 驱 动 程序 耗 尽 了 为 接收 数据 包 准 备 的 内 存 ， 
则 它 将 重新 启动 中 断 ， 然 后 调用 netif_rx_complete 终止 轮 询 函 数 。 


#include <linux/if.h> 
netdevice.h 中 包含 该 头 文件 ,在 该 文件 中 声明 了 接口 标志 (IFF_ macros) 和 ifmap 
结构 ， 在 网 络 驱动 程序 的 ioct! 实现 中 ， 其 扮演 了 重要 角色 。 


void netif carrier off{struct net_device *dev); 

void netif_carrier on(struct net_device *dev); 

int netif_carrier ok(struct net_device *dev); 
前 两 个 函数 告诉 内 核 在 指定 接口 上 是 否 存在 载波 信号 .netif_carrier_ok 检 查 载 波状 
态 作为 在 device 结构 中 的 应 答 。 
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#include <linux/if_ether.h> 
ETH_ALEN 
ETH_P_IP 
struct ethhar; 
netdevice.h 中 包含 该 头 文件 。if_ether.h 中 定义 了 所 有 的 ETH_ 宏 , 用 来 表示 octet 
的 长 度 (比如 地 址 长 度 ) 和 网 络 协议 (比如 IP)。 它 还 定义 了 ethhdr 结构 。 
#include <linux/skbuff.h> 
定义 了 sk_buff 及 其 相关 结构 ,同时 定义 了 许多 作用 于 缓冲 区 的 内 联 函 数 。 该 头 
文件 包含 在 netdevice.h 中 。 


struct sk_buff *alloc_skb(unsigned int len, int priority); 
struct sk buff *dev_alloc_ skb(lunsigned int len); 

void kfree skb{lstruct sk _buff *skb); 

void dev_kfree_skb(struct sk_buff *skb); 

void dev_kfree_skb_irq(struct sk_buff *skb); 

void dev_kfree_skb_any{struct sk_buff *skb); 


分 配 和 释放 套 接 字 缓 冲 区 的 函数 。 因 此 驱动 程序 通常 使 用 具有 dev_ 前 缀 的 变种 。 

unsigned char *skb_put(struct sk_buff *skb, int len); 

unsigned char *__skb put(struct sk buff *skb, int em > 

unsigned char *skb_push(struct sk_buff *skb, int len); 

unsigned char *__skb_push(struct sk_buff *skb, int len); 
将 数据 添加 到 skb 的 函数 ; skb_put 将 数据 放 在 skb 的 末尾 ， 而 skb_push 将 数据 放 
在 开头 。 常 用 的 版 本 还 负责 检查 是 否 有 足够 的 空间 存放 数据 ; 而 有 双 下 划 线 前 绥 的 
版 本 不 进行 该 项 检查 。 

int skb_headroom(struct sk_buff *skb); 

int skb_tailroom{(struct sk_buff *skb); 

void skb_reserve(lstruct sk_buff *skb, int len); 
在 skb 中 实现 空间 管理 的 函数 。skb_headroom 和 skb_tailroom 分 别 返 回 在 skb 的 
开头 和 结尾 ， 还 有 多 少 空间 可 用 。skb_reserve 用 于 在 skb 开头 部 分 保留 空间 ， 保 
留 的 空间 必须 为 空 。 

unsigned char *skb_pull(struct sk_buff *skb, int len); 
skb_pull 通过 调整 内 部 指针 而 “删除 ”skb 内 的 数据 。 

int skb_is_nonlinear(struct sk_buff *skb); 


如 果 使 用 分 散 / 聚 集 11JO， 并 且 skb 分 离 成 多 个 数据 片段 ， 则 该 函数 返回 真实 值 。 
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int skb_headlen(struct sk_buff *skb); 
返回 skb 中 skb->data 的 第 一 个 段 的 长 度 。 


void *kmap skb_frag(skb frag t *frag); 
void kunmap_skb_frag{void *vadgdr); 


提供 对 非 线 性 skb 中 的 数据 片段 的 直接 访问 。 

#include <linux/etherdevice.h> 

void ether_setup (Struct net device *dev); 
为 以 太 网 驱动 程序 设置 大 部 分 通用 设备 方法 的 函数 。 它 还 设置 了 dev->flags。 如 
果 设 备 名 称 的 第 一 个 字符 为 空 , 或 者 是 空格 的 话 , 这 个 函数 将 把 下 一 个 可 用 的 ethx 
名 称 赋 给 dev->name。 

unsigned short eth_type_trans (struct sk_buff *skb, struct net_device *dev); 
当 以 太 网 接口 接收 到 一 个 数据 包 时 , 调用 该 函数 设置 skb->pkt_type。 返 回 值 是 
保存 在 skb->protocol 中 的 协议 号 。 

#include <linux/sockios.h> 

SIOCDEVPRIVATE 
16 个 ioctl 命令 中 的 第 一 个 ， 每 个 驱动 程序 都 能 够 出 于 自身 的 考虑 实现 它 。 在 
sockios.h 中 定义 了 所 有 的 网 络 iocti 命令 。 


#include <linux/mii.h> 
struct mii_if_info; 

支持 实现 MII 标准 的 设备 驱动 程序 的 声明 和 结构 。 
#include <linux/ ethtool .h> 


struct ethtool_ops; 


让 设备 可 使 用 ethtool 工具 的 声明 和 结构 。 
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tty 设备 的 名 称 是 从 过 去 的 电 传 打字 机 缩写 而 来 ,， 最初 是 指 连 接 到 Unix 系统 上 的 物理 或 
者 虚拟 终端 随 着 时 间 的 推移 ， 当 通过 串 行 口 能 够 建立 起 终端 连接 后 , 这 个 名 字 也 用 来 
指 任何 的 串口 设备 。 物 理 tty 设备 的 例子 有 串口 、USB 到 串口 的 转换 器 ， 还 有 需要 特殊 
处 理 才 能 正常 工作 的 调制 解 调 器 (比如 传统 的 winModem 类 设备 ) 等 。tty 虚拟 设备 支 
持 虚 拟 控 制 台 ， 它 能 通过 键盘 及 网 络 连 接 或 者 通过 xterm 会 话 登录 到 计算 机 上 。 


Linux tty 驱 动 程序 的 核心 紧 挨 在 标准 字符 设备 驱动 层 之 下 , 并 提供 了 一 系列 的 功能 , 作 
为 接口 被 终端 类 型 设备 使 用 。 内 核 负 责 控 制 通过 tty 设备 的 数据 流 ， 并 且 格 式 化 这 些 数 
据 。 这 使 得 tty 驱动 程序 把 重点 放 在 处 理 流向 或 者 流出 硬件 的 数据 上 ， 而 不 必 重 点 考虑 
使 用 常规 方法 与 用 户 空间 的 交互 。 为 了 控制 数据 流 ， 有 许多 不 同 的 线路 规程 《line 
discipline ) 可 虚拟 地 “插入 ”任何 的 tty 设 备 上 , 这 由 不 同 的 tty 线路 规程 驱动 程序 实现 。 


在 图 18-1 中 ，tty 核心 从 用 户 那 里 得 到 将 被 发 往 tty 设备 的 数据 ， 然 后 把 数据 发 送 给 tty 
线路 规程 驱动 程序 ,该 驱动 程序 负责 把 数据 传递 给 tty 驱动 程序 。tty 驱动 程序 对 数据 进 
行 格式 化 ,然后 才能 发 送 给 硬件 。 从 tty 硬件 那里 接收 的 数据 将 回溯 至 tty 驱动 程序 ， 然 
后 流入 tty 线路 规程 驱动 程序 ， 接 着 是 tty 核心 ， 最 后 用 户 从 tty 核心 那里 得 到 数据 。 有 
时 tty 驱动 程序 直接 与 tty 核心 通信 ，tty 核心 将 数据 直接 发 送 给 tty 驱动 程序 ,但 通常 是 
tty 线路 规程 驱动 程序 修改 在 二 者 之 间 流 动 的 数据 。 


tty 线路 规程 对 于 tty 驱动 程序 来 说 是 不 透明 的 。 驱动 程序 不 能 直接 与 线路 规程 通信 ， 甚 
至 不 知道 它 的 存在 。 在 某 种 意义 上 讲 ， 驱动 程序 的 作用 是 将 发 送 给 它 的 数据 格式 化 成 硬 
件 能 理解 的 格式 , 并 从 硬件 那里 接收 数据 。 tty 线路 规程 的 作用 是 使 用 特殊 的 方法 , 把 从 
用 户 或 者 硬件 那里 接收 的 数据 格式 化 。 这 种 格式 化 通常 使 用 一 些 协议 来 完成 转换 ,比如 
PPP 或 者 是 蓝牙 (Bluetooth ) 。 
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18-1: tty 核心 概览 


有 三 种 类 型 的 tty 驱动 程序 : 控制 台 、 串 口 和 pty。 控 制 台 和 pty 驱动 程序 已 经 被 编写 好 
了 ， 而 且 可 能 也 不 必 为 这 两 类 tty 驱动 程序 编写 其 他 的 驱动 程序 。 这 使 得 任何 使 用 tty 
核心 与 用 户 和 系统 交互 的 新 驱动 程序 都 可 被 看 成 是 串口 驱动 程序 。 


为 了 确定 目前 装载 到 内 核 中 的 是 何 种 类 型 的 tty 驱动 程序 , 并 确定 目前 使 用 的 是 何 种 tty 
设备 , 我 们 可 查阅 /proc/tty/drivers 文 件 。 该 文件 列举 了 当前 使 用 的 不 同 的 tty 驱动 程序 ， 
显示 了 驱动 程序 的 名 称 、 默认 的 节点 名 称 、 驱 动 程序 的 主 设备 号 、 驱 动 程序 所 使 用 的 次 
设备 号 范围 以 及 tty 驱动 程序 的 类 型 。 下 面 是 该 文件 的 一 个 例子 : 


/dev/itty /dev/tty 二 0 system: /dev/tty 
/dev/console /dev/console 5 1 system:console 
/dev/ptmx /dev/ptmx 5 2 system 
/dev/vc/0 /dev/ve/0 4 0 system:vtmaster 
usbserial /dev/ttyUsSB 188 0-254 serial 

serial /devittyS 4 64-67 serial 
pty_slave /dev/pts 136 0-255 pty:slave 
pty_master /dev/ptm 128 0-255 pty:master 
pty_slave /dev/ttyp 3 0-255 pty:slave 
pty_master /dev/pty 2 0-255 pty:master 
unknown /dev/itty 4 1-63 console 


如 果 tty 驱动 程序 执行 了 所 包含 的 功能 , 则 /proc/tty/driver/ 目 录 下 包含 了 若干 独立 文件 
为 tty 驱动 程序 所 使 用 。 默 认 的 串 口 驱 动 程序 在 该 目录 下 创建 了 一 个 文件 ， 显 示 了 许多 
关于 串 行 硬件 的 特殊 信息 。 在 该 目录 下 如 何 创建 文件 ， 将 在 本 章 后 面 论述 。 


当前 注册 并 存在 于 内 核 的 tty 设备 在 /sys/class/tty 下 都 有 自己 的 子 目 录 。 在 这 些 子 目录 
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中 ， 有 一 个 “dev” 文件 包含 了 分 配给 该 tty 设备 的 主 设备 号 和 次 设备 号 。 如 果 驱 动 程序 
告诉 内 核 物理 设备 的 路 径 和 分 配给 该 tty 设备 的 驱动 程序 ， 它 将 创建 一 个 指向 它们 的 符 
号 连接 。 下 面 是 该 目录 树 的 结构 示例 : 


/sys/!class/tty/ 


|-- console 
| “-- dev 
|-- ptmx 

| “-- dev 
1-- tty 

| “-- dev 
|-- tty0 

| “-- dev 
|-- ttyS1 

| `“-- dev 
| -- ttyS2 

| “-- dev 
|-- ttyS3 

| “-- dev 


tcyUSB0 


二 


:1.0/ttyUSBO 
“-- Griver 
ttyUSB1 
|-- dev 
1-- device 
:1.0/ttyUSB1 
“-- driver 
ttyUSB2 
|-- dev 
|-- device 
.0/ttyUSB2 
-~ driver 
ttyUSB3 
1-- Gev 
1-- device 
1:1.0/ttyUSB3 
“-- driver 


es 
上 -» 


小 型 TTY 驱动 程序 


.. /devices/pci0000:00/0000:00:;09.0/usp3/3-1/3- 


../bus/usb-serial/drivers/keyspan _4 


../devices/pci0000:00/0000:00:09.0/usb3/3-1/3- 


../bus/usb-serial/drivers/keyspan_4 


../devices/pci0000:00/0000:00:09.0/usb3/3-1/3- 


../bus/usb-serial/drivers/keyspan_4 


../devices/pci0000:00/0000:00:09.0/usb3/3-1/3- 


.,/bus/usb-serial/drivers/keyspan_4 


为 了 说 明 tty 核 心 是 如 何 工 作 的 , 首先 创建 一 个 可 以 被 加 载 的 小 型 tty 驱动 程序 ,并 对 其 
进行 读 写 操作 , 然后 卸载 它 。 任何 tty 驱动 程序 的 主要 数据 结构 是 结构 tty_driver。 它 
被 用 来 向 tty 核心 注册 和 注销 驱动 程序 ， 对 其 的 描述 包含 在 内 核 头 文件 <linux/ 


tty_driver.h> 中 。 
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为 了 创建 tty_driver 结构 的 对 象 , 必须 把 该 驱动 所 支持 的 tty 设备 的 数量 作为 参数 调 
用 函数 alloc_tty_driver。 下面 的 一 小 段 代码 可 以 执行 这 个 操作 : 


/* 分 配 tty 驱动 程序 */ 
tiny_tty_driver = alloc tty_driver (TINY_TTY_ MINORS); 
if (!tiny_tty_driver) 

return -ENOMEM; 


当 范 数 alloc_tty_driver 被 成 功 调用 后 ，tty_adriver 结构 将 根据 tty 驱动 程序 的 需求 ， 
用 正确 的 信息 初始 化 。 该 结构 体 包含 了 大 量 的 成 员 , 但 为 使 ty 驱动 程序 能 正常 工作 , 并 
不 是 所 有 的 成 员 都 需要 被 初始 化 。 下 面 的 例子 说 明 如 何 初 始 化 该 结构 , 以 及 如 何 设置 足 
够 多 的 成 员 来 创建 tty 驱动 程序 。 它 使 用 tty_set_operations 国 数 拷贝 了 在 驱动 程序 中 定 
义 的 一 系列 操作 函数 : 


static struct tty_operations serial_ops = { 
.open = tiny.open, 
.Close = tiny_close, 
.Write = tiny_write, 
.Write_room = tiny_write room, 
,Set_termios = tiny_set. termios, 


/* 初始 化 tty 驱动 程序 */ 

tiny_tty_driver->owner = THIS_MODULE; 

tiny_tty_Adriver->driver_name = "tiny tty"; 

tiny_tty_driver->name = "ttty"; 

tiny_tty_driver->devfs_name = "tts/ttty%d"; 

tiny_tty_driver->major = TINY_TTY MAMJOR, 

tiny_tty_driver->type = TTY_DRIVER_TYPE_SERIAL, 
tiny_tty_driver->subtype = SERIAL_TYPE NORMAL, 

tiny_tty_ Griver->flags = TTY_ DRIVER REAL RAW | TTY_DRIVER_NO_DEVES, 
tiny_ tty_driver->init_ termios = tty. std termios; 

tiny tty_driver->init termios.c_cflag = B9600 | CS8 | CREAD | HUPCL | CLOCAL; 
tty_set_operations (tiny_tty_driver，&serial_ops) 


上 面 列举 的 变量 和 函数 ， 以 及 如 何 使 用 这 个 结构 体 ， 将 在 本 章 余下 的 部 分 说 明 。 


为 了 向 tty 核 心 注册 这 个 驱动 程序 , 必须 将 tty_driver 结构 传递 给 tty_register_driver 
函数 : 
/* 注册 上 ty 驱动 程序 */ 


retval = tty_register_driver (tiny_tty_driver) 

if (retval) { 
printk (KERN_ERR "failed to register tiny tty driver"); 
put, tty_driver (tiny_tty_driver); 
return retval; 





当 tty_register_driver 被 调用 时 ， 内核 将 根据 tty 驱动 程序 所 拥有 的 所 有 次 设备 号 ， 创建 
所 有 的 不 同 sysfs tty 文件 。 如 果 使 用 了 deyfs (本 书 没 有 讲述 ) ， 并 且 不 设置 
TTY_DRIVER_NO_DEVFS 标志 位 的 情况 下 ， 也 将 创建 devfs 文件 。 如 果 要 让 用 户 看 到 
系统 中 已 真实 存在 的 设备 , 并 且 为 用 户 保 持 更 新 , 岗 可 以 尊 忆 ty_register_device, 并 设 
置 该 标志 位 ， 而 这 正 是 devfs 用 户 所 期 望 的 。 


在 注册 自身 后 ， 驱 动 程序 使 用 !0， register_device 函数 注册 它 所 控制 的 设备 。 该 函数 有 
三 个 参数 : 


。 ”属于 该 设备 的 tty_driver 结构 指针 。 
. 设备 的 次 设备 号 。 


。 ”指向 该 ty 设备 所 绑 定 的 daevice 结 构 指针 。 如 果 tty 设 备 没有 绑 定 任何 aevice 结 
构 ， 该 参数 为 NULL。 


因为 我 们 的 设备 是 虚拟 的 , 并且 不 和 任何 物理 设备 绑 定 , 因此 , 我 们 的 驱动 程序 将 立刻 
注册 所 有 的 tty 设备 : 

for td = 0 4 < TINY TIY MINORSGY. ++1} 

tty_register device(tiny_tty_ driver, i, NULL); 

为 了 向 tty 核心 注销 驱动 程序 ， 所 有 使 用 tty_register_device 函数 注册 的 tty 设备 都 需要 
使 用 tty_unregister_device 函数 清除 自身 。 然 后 ， 必 须 调用 tty_unregister_driver 注销 
tty_driver 结构 。 

for (i = 0; i < TINY_TTY MINORS; ++i) 


tty_unregister device(tiny_tty_driver, i); 
tty_unregister_driver (tiny_tty_driver}; 


termios 结构 


在 结构 tty_driver 中 的 init_termios 变 量 是 一 个 termios 结 构 。 如 果 用 户 在 端口 
初始 化 以 前 就 使 用 了 该 端口 , 那么 该 变量 用 来 提供 一 系列 安全 的 设置 值 。 驱动 程序 用 一 
系列 标准 值 初始 化 该 变量 ， 而 这 些 值 是 从 tty_std_termios 值 中 拷贝 过 来 的 。 
tty_stqd_termios 结构 在 tty 核心 中 被 定义 如 下 : 


struct termios tty_stqd termios = { 
.Cc_iflag = ICRNL | IXON, 
.Cc_oflag = OPOST | ONLCR， 
.c_cflag = B38400 | CS8 | CREAD | HUPCL, 
.c_lflag = ISIG | ICANON | ECHO | ECHOE | ECHOK | 
ECHOCTL | ECHOKE | IEXTEN, 
CTNITECC 
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termios 结 构 被 用 来 为 在 tty 设 备 上 的 某 个 特定 端口 保存 当前 所 有 设置 。 这 些 设置 控制 
着 当前 的 波 特 率 、 数 据 大 小 、 数 据 流 参数 和 其 他 一 些 值 。 该 结构 的 各 个 成 员 的 含义 是 : 


teftag. t Coitlag: 
输入 模式 标志 
tcflag_t c_oflag; 
输出 模式 标志 
teflag tt cctlag; 
控制 模式 标志 
tcflag_t c _lflag; 
本 地 模式 标志 
ce t ec line; 
线路 规程 类 型 


Co Ceec[LNCCS] > 


控制 字符 数组 


所 有 的 模式 标志 都 在 一 个 较 大 的 位 成 员 中 定义 。 各 种 不 同 模式 的 值 和 它们 的 用 途 , 可 以 
在 任何 Linux 发 行 版 中 关于 termios 的 手册 页 中 找到 。 内核 提供 了 一 套 有 用 的 宏 来 获得 不 
同位 的 值 。 这 些 宏 在 头 文件 includellinuxltty.h 中 定义 。 


为 使 ty 驱动 程序 能 正常 工作 , 在 tiny_tty_dqriver 变 量 中 所 有 的 字段 都 是 必需 的 。 需 
要 ownez 成 员 是 因为 要 避免 当 tty 端口 打开 时 ,tty 驱 动 程序 被 卸载 。 在 以 前 的 内 核 版 本 
中 , tty 驱动 程序 本 身 负责 处 理 模块 引用 计数 逻辑 。 但 是 内 核 程序 员 发 现 : 要 解决 全 部 可 
能 的 竞 态 问题 是 十 分 困难 的 ， 因 此 现在 的 tty 核心 为 tty 驱动 程序 处 理 所 有 的 控制 问题 。 


driver_name 和 name 成 员 看 起 来 十 分 相似 , 然而 它们 有 不 同 的 用 途 。 在 内 核 所 有 的 tty 
驱动 程序 中 ，driver_name 变量 被 设置 成 简短 、 描 述 性 和 的、 唯一 的 值 。 这 是 因为 在 
/proclttyldrivers 文 件 中 要 向 用 户 描述 驱动 程序 的 情况 , 并 且 在 sysfs 的 tty 类 目录 中 显示 
当前 被 加 载 的 tty 驱动 程序 。name 成 员 是 在 /dev 目录 中 ， 定 义 分 配给 单独 tty 节点 的 名 
字 。 通过 在 该 名 宇 末 尾 添 加 tty 设 备 序号 来 创建 tty 设 备 。 它 还 被 用 来 在 sysfs 的 /sysiclass/ 
tty 目 录 中 创建 设备 名 。 如果 在 内 核 中 使 用 devfs, 该 名 字 可 以 包含 放置 tty 驱动 程序 的 任 
何 子 目录 。 举 个 例子 , 如 果 使 用 devfs, 在 内 核 中 的 串口 驱动 程序 设置 name 成 员 为 Etts， 
如 果 不 使 用 devfs， 则 是 ttys。 该 字符 串 也 会 出 现在 /proc/tiy/drivers 文件 中 。 


如 同 以 前 提 到 过 的 ，/proc/tty/drivers 文件 显示 了 当前 注册 的 所 有 tty 驱动 程序 。 驱动 程 
序 在 内 核 中 使 用 tiny_tty 进行 注册 ， 如 果 不 使 用 devfs ， 该 文件 与 下 面 的 例子 类 似 : 
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$ Cat /proc/tty/drivers 


tiny_tty /dev/ttty 240 0-3 serial 
usbserial /dev/ttyUSB 188 0-254 serial 

serial /dev/ttys 4 64-107 serial 
pty_slave /dev/pts 136 0-255 pty:slave 
pty_master /dev/ptm 128 0-255 pty:master 
pty_slave /Aevittyp 3 0-255 pty:slave 
pty_master /dev/pty 2 0-255 pty:master 
unknown /devive/ a 1-63 console 
/dev/ivec/0 /dev/ve/0 4 0 system:vtmaster 
/dev/ptmx /dev/ptmx SS 2 system 
/dev/console /dev/console 5 1 system:console 
/dev/ 蕊 Y /dev/tty 后 0 system:/dev/tty 


同样 , 当 tiny_tty 驱动 程序 向 tty 核心 注册 时 , sysfs 的 目 菜 /sys/classltty 也 有 如 同 下 面 的 
类 结构 : 
$ tree /sys/class/tty/ttty* 
/sys/class/tty/ttty0 
‘-~- dev 
/sys/class/tty/tttyl 
`-- dev 
/sys/class/tty/ttty2 
`-- dev 
/sys/class/tty/ttty3 
`-- dev 


$ cat /sys/clagss/tty/ttty0/dev 
240:0 


major 变 量 表示 该 驱动 程序 使 用 的 主 设备 号 。 type 和 subtype 变 量 声明 该 驱动 程序 是 什么 
类 型 的 tty 驱动 程序 。 对 我 们 的 例子 , 这 是 一 个 “常规 (normal)” 类 型 的 串口 驱动 程序 。 
tty 驱动 程序 另外 一 个 唯一 子 类 型 是 “呼出 (callout)” 类 型 。 呼 出 设备 传统 上 被 用 来 控 
制 设备 的 线路 规程 设置 。 数据 的 发 送 或 者 接收 将 通过 某 个 设备 节点 进行 , 而 任何 对 线路 
设置 的 改变 将 被 发 往 不 同 的 设备 节点 ， 这 就 是 呼出 设备 。 这 需要 为 每 个 单独 的 tty 设备 
使 用 两 个 次 设备 号 ,幸运 的 是 几乎 所 有 驱动 设备 都 在 同一 个 设备 节点 上 处 理 数据 和 线路 
设置 ， 在 新 的 驱动 程序 中 ， 呼 出 类 型 已 经 很 少 使 用 了 。 


tty 驱动 程序 和 tty 核心 都 使 用 flags 变量 表明 当前 驱动 程序 的 状态 以 及 该 tty 驱动 程序 
的 类 型 。 这 里 定义 了 许多 位 的 掩 码 宏 操 作 , 当 对 这 些 标志 位 进行 测试 和 操作 时 ,必须 使 
用 这 些 宏 。 驱 动 程序 可 以 设置 flags 变量 中 的 三 个 位 : 


TTY_DRIVER_RESET_TERMIOS 
该 标志 表示 当 最 后 一 个 进程 关闭 该 设备 时 , tty 核心 对 termios 设 置 复位 。 这 对 控制 
台 和 pty 驱动 程序 来 说 很 有 用 。 比 如 用 户 将 终端 设置 为 非常 规 状态 ,如果 设置 了 该 
位 ， 当 用 户 退出 或 者 控制 该 会 话 的 进程 被 关闭 时 ， 终 端 能 够 自动 恢复 常规 值 。 
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TITY_DRIVER_REAL_RAW 
该 标志 表示 tty 驱动 程序 使 用 奇偶 校 验 或 者 中 断 字 符 线路 规程 。 这 使 得 线路 规程 能 
以 比较 快 的 方式 接收 字符 ,因为 它 不 必 检 查 从 tty 驱 动 程序 那里 接收 的 每 一 个 字符 。 
由 于 速度 提升 的 好 处 ， 所 有 的 tty 驱动 程序 通常 都 设置 该 位 。 
TITY_DRIVER_NO_DEVFS 
该 位 表示 当 调 用 try_regisfer_drfver 时 ，tty 核心 不 需要 为 tty 驱动 程序 创建 任何 的 
devfs 入 口 。 这 对 于 那些 需要 动态 创建 和 删除 次 设备 的 驱动 程序 来 说 非常 有 用 。 举 
几 个 设置 该 位 的 驱动 程序 的 例子 : 比如 USB 到 串口 驱动 程序 ，USB 调制 解 调 器 驱 
动 程序 ，USB 蓝牙 tty 驱动 程序 ， 以 及 许多 标准 串口 虹 动 程序 。 
当 tty 驱动 程序 要 向 tty 核心 注册 一 个 特殊 的 tty 设备 时 ， 它 必须 调用 
lty_register_device 国 数 , 并 且 把 指向 tty 驱动 程序 的 指针 , 还 有 它 所 创建 设备 的 次 
设备 号 作为 参数 。 如 果 不 这 么 做 、tty 核心 依然 将 所 有 调用 传递 给 tty 驱动 程序 , 但 
是 可 能 不 提供 一 些 内 部 与 tty 相 关 的 操作 。 这 将 包括 /sbin/hotpiug 发 出 的 新 tty 设 备 
的 通知 消息 ,以 及 在 sysfs 中 tty 设备 的 表示 。 当 把 已 经 注册 的 tty 设备 从 系统 移 除 
时 ，tty 驱动 程序 必须 调用 tty_unregister_device 函数 。 


在 该 变量 中 还 有 一 位 TTY_DRIVER_INSTALLED, 它 由 tty 核心 控制 。 当 tty 驱动 程序 注册 
后 ， 由 tty 核心 而 不 是 tty 驱动 程序 置 位 。 


tty_driver 函数 指针 


最 后 ，tiny_tty 驱动 程序 声明 了 四 个 陋 数 指针 。 


open 和 close 


当 用 户 使 用 open 打开 由 驱动 程序 分 配 的 设备 节点 时 ，tty 核心 将 调用 open 函数 。tty 核 
心 使 用 分 配给 该 设备 tty_struct 结 构 的 指针 , 以 及 一 个 文件 描述 符 作为 参数 调用 该 函 
数 。tty 驱动 程序 一 定 要 设置 open 成 员 才 能 正常 工作 ， 否 则 用 户 调用 open 时 ， 将 返回 
-ENODEV。 


当 调 用 open 函数 时 ，tty 驱动 程序 或 者 将 数据 保存 到 传递 给 它 的 tty_struct 变量 中 ， 
或 者 将 数据 保存 在 一 个 静态 数组 中 , 然后 通过 分 配给 该 端口 的 次 设备 号 进行 引用 。 该 步 
叭 是 必须 的 , 这 样 在 以 后 调用 close、write 和 其 他 函数 时 ，tty 驱动 程序 能 够 知道 是 对 哪 
个 设备 进行 操作 的 。 


riny_tty 驱动 程序 在 tty 结构 中 保存 了 一 个 指针 ， 请 参看 下 面 的 代码 : 


546 第 十 八 章 








static int tiny open{struct tty_struct *tty, struct file *file) 
{ 

struct tiny_serial *tiny; 

struct timer list *timer; 

int index; 


/* 一 旦 发 生 错 误 ， 则 初始 化 指针 */ 
tty->driver _ data = NULL; 


/* 获得 与 tty 指针 相关 的 串口 对 象 */ 
index = tty->index; 
tiny = tiny_ table[index]; 
if (tiny = = NULL) { 
/* 第 一 次 访问 该 设备 、 创 建 它 */ 
tiny = kmalloc(sizeof (*tiny), GFP_KERNEL); 
if {!tiny) 
return -ENOMEM; 


init_MUTEX (&tiny->sem); 
tiny~>open_count = 0; 
tiny->timer = NULL; 
tiny_table[index] = tiny; 
} 
down({&tiny->sem); 


/* 在 tty 结构 中 保存 上 述 结构 */ 


tty->driver_data = tiny; 
tiny->tty = 七 Yi 


在 这 段 代 码 中 ，tty 结构 中 保存 了 tiny_serial 结构 。 这 使 得 tiny_write、 tiny_write_ 
room、tiny_close 函数 能 够 获得 tiny_sezrial 结构 ， 并 能 正确 处 理 它 。 


tiny_serial 结构 定义 如 下 : 


struct tiny_serial { 


struct tty_struct  *tty; /* 指向 该 设备 的 tty 指针 */ 
int - open_count; /* 该 端口 被 打开 的 次 数 */ 
struct semaphore sem; /* 锁 住 该 结构 */ 


struct timer list *timer; 
}; 
如 上 所 示 , 当 端口 第 一 次 被 打开 , 在 调用 open 函数 时 open_count 变量 被 初始 化 为 0。 
这 是 一 个 典型 的 引用 计数 器 , 由 于 对 同一 个 设备 , 为 了 能 使 多 个 进程 进行 读 写 数据 , tty 
驱动 程序 的 open 和 close 函数 会 被 多 次 调用 ,因此 该 参数 是 需要 的 。 为 了 能 正确 处 理 好 
每 一 件 事 , 端口 被 打开 和 关闭 的 次 数 必须 被 记录 ; 端口 被 使 用 时 ,驱动 程序 会 增 减 该 次 
数 的 引用 。 当 端口 第 一 次 被 打开 时 , 可 以 对 所 需要 的 任何 硬件 做 初始 化 及 对 所 需 内 存 进 
行 分 配 。 当 端口 最 后 一 次 被 关闭 时 ， 可 以 关闭 任何 需要 的 硬件 ， 并 对 内 存 进行 清理 。 


tiny_open 函数 的 剩余 部 分 显示 了 如 何 保存 设备 被 打开 的 次 数 : 
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++tiny->open_ count; 
if {tiny->open_count = = 1) { 
/* 这 是 该 端口 第 -- 次 被 打开 */ 
/* 在 这 里 做 所 需要 的 任何 初始 化 工作 */ 


如 果 打 开 过 程 中 出 现 意 外 导致 操作 失败 , open 函数 将 返回 一 个 负 值 错误 号 , 而 返回 0 则 
表示 操作 成 功 。 


当 用 户 使 用 先前 由 open 函数 创建 的 文件 句柄 作为 参数 调用 close 函数 时 ，tty 核心 调用 
close 函数 指针 。 此 时 设备 将 被 关闭 。 然 而 ， 由 于 open 函数 可 以 被 多 次 调用 ,close 男 数 
也 可 以 被 多 次 调用 。 因此 该 函数 应 该 能 够 记录 它 被 调用 的 次 数 , 这 样 就 可 以 判断 在 本 次 
调用 时 ， 是 否 要 真 的 关闭 硬件 。tiny_try 驱动 程序 使 用 下 面 的 代码 做 到 这 一 点 : 


static void do_close(struct tiny serial *tiny) 
{ 


down (&tiny->sem); 


if (!tiny->open_count) { 
/* 端口 从 未 被 打开 */ 
goto exit; 

} 


~-tiny->open_count; 

if {tiny->open_count <= 0) { 
/* 最 后 一 个 用 户 已 经 将 端口 关闭 */ 
/* 在 这 里 做 任何 硬件 相关 操作 */ 


/* 关闭 定时 器 * / 
del_timer (tiny->timer); 
} 
exit: 
UP (&Liny->Sem) ; 
} 


static void tiny closel(struct tty_struct *tty, struct file *file} 
{ 
struct tiny_serial *tiny = tty->driver_data; 
if (tiny) 
do_close{tiny); 
} 


为 了 关闭 设备 ，riny_close 函数 只 是 调用 了 do_close 函数 来 做 这 个 工作 。 因 此 当 端 口 被 
打开 , 而 驱动 程序 被 卸载 时 ， 不必 在 这 里 复制 关闭 设备 的 逻辑 。close 函数 没有 返回 值 ， 
所 以 也 无 法 判断 操作 的 成 功 与 失败 。 


数据 流 
当 数据 要 被 发 送 给 硬件 时 ， 用 户 调用 write 函数 。 首先 tty 核心 接收 到 了 该 调用 ,然后 内 


548 第 十 八 章 





核 将 数据 发 送 给 tty 驱动 程序 的 write 函数 。tty 核心 同时 也 告诉 tty 驱动 程序 所 发 送 数据 
的 大 小 。 


有 时 由 于 tty 硬件 的 速度 及 缓冲 区 大 小 的 原因 ， 当 write 函数 被 调用 时 , 写 操作 程序 所 处 
理 的 数据 不 能 同时 都 发 送出 去 。wrire 国 数 将 返回 发 送 给 硬件 的 字符 数 (或 者 是 最 后 一 次 
被 发 送 的 队列 ) ， 因 此 用 户 程序 可 以 检查 该 值 以 判断 是 否 写 人 了 所 有 的 数据 。 与 在 内 核 
驱动 程序 中 等 待 所 有 数据 都 被 发 送出 去 相 比 , 在 用 户 空间 做 这 件 事 更 容易 一 些 。 在 write 
调用 时 如 果 发 生 了 任何 错误 ， 将 返回 一 个 为 负 值 的 错误 号 ， 而 不 是 被 写 人 的 字符 数 。 


可 以 在 中 断 上 下 文 或 者 是 用 户 上 下 文中 调用 write 函数 .tty 驱 动 程序 在 中 断 上 下 文中 时 ， 
它 不 会 调用 任何 可 能 休眠 的 函数 , 这 点 非常 重要 。 这 包含 任何 可 能 调用 schedule 的 函数 ， 
比如 常用 的 copy_from_user、kmalloc、printk。 如 果 用 户 确实 需要 程序 休 眼 ， 请 首先 通 
过 调用 in_interrupt 来 判断 驱动 程序 是 否 在 中 断 上 下 文中 。 


下 面 的 示例 驱动 程序 并 没有 连接 到 真正 的 硬件 上 ， 因 此 它 的 write 函数 只 是 简单 地 在 内 
核 调试 日 志 中 记录 了 需要 写 人 的 数据 。 请 看 下 面 的 代码 : 


static int tiny_write(struct tty_struct *tty, 
const unsigned char *buffer, int count)} 
{ 
struct tiny_serial *tiny = tty->driver_data; 
Tt 
int retval = -EINVAL; 


if (!tiny) 
return -ENODEV; 


Gown (&tiny->sem); 
if {!tiny->open_count) 


/* 端口 未 被 打开 */ 


goto exit; 
/* 将 数据 写 入 内 核 调 试 日 志 ， 来 伪装 将 数据 发 送出 硬件 端 只 */ 
Printk (KERN_DEBUG "%s - "，_ _FUNCTION_ _); 


for (i = 0; i < count; ++i) 
printk("%$02x ", buffer[i]); 
printk("\n"); 


exit: 
up(&tiny->sem); 
return retval; 


} 


当 tty 子 系统 本 身 需 要 将 一 些 数据 传送 到 tty 设备 之 外 时 ， 可 以 调用 write 函数 。 如 果 tty 
驱动 程序 并 未 在 tty_struct 中 实现 put_char 国 数 ， 将 会 发 生 这 类 操作 。 此 时 ，tty 核 
心 使 用 数据 大 小 为 1 的 参数 回调 write 函数 。 这 通常 发 生 在 tty 核心 将 换行 字符 转换 成 一 
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个 换行 字符 和 一 个 新 行 字符 时 。 这 么 做 的 最 大 问题 是 : 在 发 生 这 种 调用 时 , tty 驱动 程序 
的 write 函数 一 定 不 能 返回 0。 这 就 意味 着 当 调 用 者 (tty 核心 ) 并 未 缓冲 数据 ， 而 其 后 
又 一 次 执行 时 ， 驱 动 程序 必须 向 设备 写 人 一 个 字 节 的 数据 。 由 于 write 函数 并 不 能 判定 
它 是 否 在 pur_char 处 被 调用 ,即使 只 发 送 一 个 字 节 的 数据 ， 在 实现 write 国 数 时 ， 应 在 
返回 之 前 至 少 写 人 一 个 字 节 。 现 在 许多 USB 到 串口 的 tty 驱 动 程序 并 不 依照 此 规则 行事 ， 
因此 当 连 接 到 一 些 类 型 的 终端 时 ， 它 们 就 不 能 正常 工作 。 


当 tty 核 心 想 知道 由 tty 驱动 程序 提供 的 可 用 写 人 缓冲 区 大 小 时 , 就 会 调用 write_room 图 
数 。 在 清空 写 缓冲 区 ， 或 者 调用 wrire 函数 向 缓 促 区 添加 数据 时 ， 该 值 是 变化 的 。 
static int tiny_write_room(struct tty_struct *tty) 
{ 


struct tiny_serial *tiny = tty~>driver_data; 
int room = -EINVAL; 


if (!tiny) 
return -ENODEV; 


down{&tiny->sem); 


if {1itiny->open _count) { 
/* 端口 没有 被 打开 */ 
goto exit; 

} 

/* 计算 设备 中 可 用 空间 的 大 小 */ 


room = 255; 


exit: 
up(&tiny->sem); 
return room; 


} 


其 他 缓冲 函数 


为 了 获取 正在 工作 的 tty 驱动 程序 , 在 tty_driver 中 的 chars_in_buffer 芳 数 并 不 是 必 
需 的 , 但 是 推荐 使 用 。 当 tty 核心 想 知道 在 tty 驱动 程序 的 写 缓冲 区 中 还 有 多 少 个 需要 传 
输 的 字符 时 调用 该 函数 。 如 果 驱 动 程序 在 将 字符 发 送 给 硬件 设备 前 能 够 保存 它们 , 则 需 
要 实现 该 函数 ， 这 样 tty 核心 就 能 判断 在 驱动 程序 中 的 数据 是 否 都 被 传输 了 。 


在 tty_driver 中 有 三 个 回调 函数 用 来 刷新 驱动 程序 保存 的 任何 数据 。 它 们 并 不 需要 
一 定 被 实现 , 但 是 如 果 tty 驱 动 程序 能 在 发 送 给 硬件 前 缓冲 数据 , 还 是 推荐 实现 它们 。 前 
两 个 回调 函数 是 filush_chars 和 wait_until_sent。 当 tty 核 心 使 用 put_char 回调 函数 把 大 
量 字 符 发 送 给 tty 驱动 程序 时 调用 它们 。 如 果 tty 驱动 程序 还 没有 开始 发 送 数据 ,， 则 内 核 
要 求 tty 驱动 程序 开始 把 数据 发 送 给 硬件 ， 此 时 使 用 fiush_chars 回调 函数 。 在 将 全 部 的 
数据 发 送 给 硬件 前 ， 该 函数 可 以 返回 。wait_until_sent 回 调 函 数 与 此 非常 类 似 , 但 只 有 
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当 所 有 的 数据 都 被 发 送 给 tty 核心 ， 或 者 超过 了 设 定 的 超时 值 时 ， 其 才能 返回 。tty 驱动 
程序 在 函数 执行 时 可 以 休 有 卢 以 完成 操作 。 如 果 传 递 给 wair_uniil_sent 函 数 的 超时 值 为 0， 
则 其 只 能 等 待 操作 完成 后 才 可 返回 。 


剩 下 的 一 个 刷新 回调 函数 是 flush_buffer。 当 tty 驱动 程序 要 刷新 在 其 写 缓冲 区 中 的 所 有 
数据 时 , tty 核 心 调用 该 函数 。 此 时 保存 在 缓冲 区 中 的 所 有 数据 都 将 被 删除 ， 而 不 能 发 送 
给 设备 。 


怎么 没有 read 函数 ? 


只 使 用 这 些 函 数 , tiny_tiy 驱 动 程序 可 以 进行 注册 , 一 个 设备 节点 可 以 被 打开 , 数据 可 以 
被 写 信 设备， 设备 节点 可 以 被 关闭 ， 驱 动 程序 可 以 注销 并 从 内 核 中 印 载 。 但 是 tty 核心 
和 tty_driver 结构 并 未 提供 read 函数 ， 换 句 话说 ,并 不 存在 一 个 回调 函数 从 驱动 程序 获 
得 数据 并 传递 给 tty 核心 。 


当 tty 驱动 程序 接收 到 数据 后 ， 它 将 负责 把 从 硬件 获取 的 任何 数据 传递 给 tty 核心 , 而 不 
使 用 传统 的 read 函数 。tty 核心 将 缓冲 数据 直到 接 到 来 自用 户 的 请 求 。 由 于 tty 核心 已 提 
供 了 缓冲 逻辑 ， 因 此 没有 必要 为 每 个 tty 驱动 程序 实现 它们 自己 的 缓冲 区 逻辑 。 当 用 户 
要 求 驱动 程序 开始 或 者 停止 传输 数据 时 ，tty 核心 将 通知 tty 驱动 程序 。 但 是 如 果 内 部 的 
tty 缓冲 区 已 经 写 满 ， 将 不 会 有 上 述 的 通知 事件 。 


在 一 个 名 为 tty_flip_buffer 的 结构 中 ，tty 核心 缓冲 从 tty 驱动 程序 接收 的 数据 。 交 
赫 (flip) 缓冲 区 是 一 个 含有 两 个 主要 数据 数组 的 结构 。 从 tty 接收 到 的 数据 保存 在 第 一 
个 数组 中 。 当 该 数组 存 满 后 ， 等 待 这 些 数据 的 用 户 将 被 告 之 : 数据 已 就 绪 可 以 读 取 了 。 
当 用 户 从 这 个 数组 中 读数 据 时 , 任何 新 接收 的 数据 将 被 保存 到 第 二 个 数组 中 。 当 这 个 数 
组 存 满 后 , 数据 又 一 次 地 流向 用 户 , 而 此 时 驱动 程序 开始 填充 第 一 个 数组 。 因 此 被 接收 
的 数据 从 一 个 缓冲 区 交替 保存 到 另外 一 个 缓冲 区 ， 只 是 希望 两 个 缓冲 区 不 要 同时 溢出 。 
为 了 保护 数据 不 至 丢失 ，tty 驱动 程序 可 以 监控 输入 数组 的 大 小 ， 如 果 已 经 满 了 ， 则 tty 
驱动 程序 及 时 刷新 缓冲 区 ， 而 不 是 等 待 下 一 次 更 新 的 机 会 。 


如 果 使 用 了 变量 count ， 那 么 tty_f1ip_puffer 结构 的 技术 细节 对 tty 驱动 程序 并 非 
至 关 重 要 。 这 个 变量 保存 了 当前 缓冲 区 中 用 于 接收 数据 的 剩余 字 节 数 。 如 果 该 变量 取 值 
TTY_FLIPBUF_SIZE, 那么 需要 调用 tty_flip_buffer_push 函数 将 交替 缓冲 区 中 的 数据 发 
送 给 用 户 。 该 过 程 的 例子 代码 如 下 : 


for (i = 0; i < data_size; ++i) { 
if (tty->ftlip.count >= TTY_ FLIPBUF_SIZE) 
tty_flip_buffer pusht{tty); 
tty_insert_flip_char(tty, datal[li], TTY_NORMAL); 
} 
tty_flip_buffer_push(tty),; 
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调用 tty_insert_flip_char 将 把 tty 驱 动 程序 获得 的 ,准备 发 给 用 户 的 字符 添加 到 交替 缓冲 
区 中 。 该 区 数 的 第 一 个 参数 是 保存 数据 的 tty_struct 结构 , 第 二 个 参数 是 需要 保存 的 
数据 , 第 三 个 参数 是 为 此 字符 设置 的 标志 位 。 如 果 接 收 的 字符 是 常规 字符 , 标志 位 应 该 
被 设置 为 TTY_NORMAL。 如 果 是 一 个 特殊 类 型 的 字符 表示 产生 了 接收 数据 错误 ， 这 些 字 
符 根据 不 同 的 错误 可 能 是 TTY_BREAK、TTY_FRAME、 TTY_PARITY 或 者 是 TTY_OVERRUN。 


为 了 把 数据 “ 推 ” 向 用 户 ， 需 要 调用 tty_flip_buffer_push。 当 交 赫 缓冲 区 将 要 溢出 时 ， 
也 调用 这 个 函数 ,可 以 在 例子 程序 中 看 到 这 点 。 因 此 无 论 何 时 把 数据 添加 到 交替 缓冲 区 ， 
或 者 交替 缓冲 区 被 占 满 ，tty 驱动 程序 一 定 要 调用 try_frlip_buffer_push。 如 果 tty 驱动 程 
序 能 够 以 很 快 的 速度 接收 数据 ， 则 需要 设置 tty->1ow_1latency 标志 位 ， 这 使 得 
tty_flip_buffer_push 函数 在 被 调用 时 ,会 立刻 被 执行 。 否则 1ty_flip_buffer_push 会 在 未 
来 的 某 个 时 刻 才 会 将 数据 清除 出 缓冲 区 。 


TTY 线路 设置 


当 用 户 要 改变 线路 设置 ， 或 者 获得 当前 的 线路 设置 ， 只 需要 调用 多 个 termios 用 户 空间 
库 函 数 中 的 一 个 ,也 可 直接 对 tty 设备 节点 调用 ioct。tty 核心 将 会 把 这 两 种 接口 转换 为 
一 系列 的 tty 驱动 程序 的 回调 函数 ， 或 者 是 ioct! 调用 。 


set_termios 


大 部 分 termios 的 用 户 空间 函数 将 会 被 库 转 换 成 对 驱动 程序 节点 的 ioct! 调 用 。 大 量 的 不 
同 tty iocrti 调用 会 被 tty 核心 转换 成 一 个 对 tty 驱动 程序 的 set_termios 函数 调用 。 
set_termios 回调 函数 需要 知道 要 改变 的 是 哪 一 个 线路 设置 ， 然 后 在 tty 设备 中 对 其 进行 
改动 。tty 驱动 程序 必须 能 够 对 在 termios 结构 中 所 有 不 同 的 设置 进行 解码 ， 并 对 任何 需 
要 的 改变 做 出 响应 。 因 为 所 有 的 线路 设置 都 被 封装 在 termios 结构 中 ， 因 此 这 是 个 复杂 
的 工作 。 


set_termios 函数 首先 要 做 的 是 判断 是 否 需要 改变 设置 。 可 以 使 用 下 面 的 代码 进行 判断 : 


unsigned int cflag; 
cflag = tty->termios->c_cflag; 


/* 检查 以 保证 确实 有 参数 要 被 改变 */ 
if (old termios) { 
if (({cflag = = old termios->c_cflag) && 
(RELEVANT_IFLAG (tty->termios->c_iflag) = = 
RELEVANT_IFLAG (old_termios->c_iflag}))}) { 
printk{KERN_DEBUG " - nothing to change...\n"); 
return; 
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宏 RELEVANT_IFLAG 的 定义 如 下 : 
#define RELEVANT_IFLAG (iflag} ((iflag) & (IGNBRK |BRKINT |IGNPAR|PARMRK | INPCK) ) 


该 宏 可 以 用 来 屏蔽 cflag 变 量 中 重要 的 位 。 通 过 与 原来 的 值 进行 比较 , 来 发 现 是 否 产生 
变化 ,如 果 没 有 变化 , 则 不 需要 改变 任何 设置 ,接着 返回 ,请 注意 ,在 访问 old_termios 
变量 前 首先 应 检查 它 是 否 是 个 合法 的 指针 。 由 于 有 了 时 该 变量 被 设置 为 NULL，、 所 以 检查 
是 必需 的 。 如 果 对 一 个 NULL 指针 进行 访问 ， 会 产生 内 核 panic。 


为 了 获得 所 需要 的 字 节 大 小 , 可 以 使 用 CSIZE 掩 码 把 正确 的 位 从 cflag 变量 中 分 离 出 
去 。 如 果 不 确定 字 节 大 小 , 习惯 上 将 被 设置 为 默认 的 8 数据 位 。 请 参看 下 面 的 执行 代码 : 


/* 获得 字 节 大 小 */ 
Switch (cflag & CSIZE) 1{ 
case CS5: 
printk (KERN_DEBUG " - data bits = 5\n"); 
break; 
case CS6: 
printk (KERN_DEBUG " - data bits = 6\n"); 
break; 
case CS7: 
printk (KERN_DEBUG " -~ data bits = 7\n"); 
break; 
default: 
case CS8 : 
Printk(KERN_DEBUG " -~ data bits = 8\n") 
break; 
于 


为 了 确定 所 需要 的 奇偶 校 验 值 ， 对 cflag 变量 使 用 PARENB 掩 码 ， 可 以 知道 是 否 设置 
了 奇偶 校 验 。 如 果 设 置 了 奇偶 校 验 , 使 用 PRARODD 掩 码 能 够 判断 使 用 的 是 奇 校 验 还 是 偶 
校 验 。 下 面 是 一 个 例子 : 


/* 判断 奇偶 */ 
if (cflag & PARENB) 
if (cflag & PARODD) 
printk (KERN_DEBUG " - parity = odad\n"); 
else 
printk(KERN_DEBUG " - parity = even\n"); 
else 
printk (KERN_DEBUG " - parity = none\n"); 


对 cflag 变量 使 用 CSTOPB 位 能 够 确定 出 是 否 使 用 停止 位 。 下 面 是 例子 代码 : 


/* 确定 需要 的 停止 位 */ 
if (cflag & CSTOPB) 

printk (KERN_DEBUG " -~- stop bits = 2\n"); 
else 

printk (KERN_DEBUG " - stop bits = 1\n"); 
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有 两 种 基本 类 型 的 流 控 制 : 软件 控制 和 醒 件 控制 。 对 cflag 使 用 CRTScTS 掩 码 能 确定 
用 户 是 否 使 用 的 是 硬件 流 控 制 。 示 例 代 码 如 下 : 


/* 确定 硬件 流 控制 设置 */ 
if (cflag & CRTSCTS) 


printk {KERN_DEBUG " - RTS/CTS is enabled\n")}); 
else 


printk (KERN DEBUG “" - RTS/CTS is disabled\n"); 


确定 使 用 软件 流 控制 的 不 同 模式 ， 以 及 使 用 不 同 的 开始 和 停止 字符 稍微 有 点 麻烦 : 


/* 确定 软件 流 控制 */ 
/* 如 果实 现 了 XON/XOFF， 设 置 设备 中 的 开始 及 结束 字符 */ 
if (I_IXOFF(tty) || I_IXON{(tty)) { 
unsigned char stop.char = STOP_CHRAR (tty) ; 
unsigned char start_char = STRART_CHRAR (tty) ; 


/* 如 果实 现 了 INBOUND XON/XOFF */ 


if (I_IXOFF(tty))} 
printk{KERN_DEBUG " - INBOUND XON/XOFF is enabled, " 


"XON = %2x, XOFF = $%2x", start.char, stop_char); 
else 


printk (KERN_DEBUG" - INBOUND XON/XOFF is disabled"); 


/* 如 果实 现 了 OUTBOUND XON/XOFF */ 
if (I_IXON(tty)) 
printk {KERN_DEBUG" - OUTBOUND XON/XOFF is enabled, * 


"XON = %2x, XOFF = %2x", start_char, stop_char); 
else 


printk (KERN_DEBUG" - OUTBOUND XON/XOFF is disabled"); 
} 
最 后 要 确定 使 用 的 波 特 率 。tty 核心 提供 了 函数 tty_get_baud_rate 以 达到 此 目 和 的。 该 函 
数 返 回 一 个 整 型 值 表示 对 特殊 的 tty 设备 所 使 用 的 波 特 率 。 


/* 获得 需要 的 波 特 率 */ 
printk (KERN_DEBUG " - baud rate = %d", tty_get_baud rateltty)); 


现在 tty 驱动 程序 可 以 确定 所 有 的 线路 设置 ， 可 以 使 用 这 些 值 正确 启动 硬件 。 


tiocmget 和 tiocmset 


在 2.4 及 更 早 的 内 核 中 , 使 用 了 大 量 的 tty ioct! 调 用 来 获得 及 设置 不 同 的 控制 线路 参数 。 
这 通过 常量 TIOCMGET、TIOCMBIS、TIOCMBIC 和 TIOCMSET 来 完成 。TIOCMGET 用 来 获 
得 内 核 的 线路 设置 值 ， 在 2.6 版 本 的 内 核 中 ， 该 ioct! 调用 被 tty 驱动 程序 中 的 tiocmget 
回调 函数 所 代替 。 剩 下 的 三 个 ioct 现 在 被 简化 成 tty 驱动 程序 中 的 一 个 tiocmset 回调 函 
数 了 。 
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当 内 核 要 了 解 特定 tty 设备 控制 线路 的 当前 物理 值 时 ，tty 核心 会 调用 tty 驱动 程序 中 的 
fiocmget 函数 。 这 常用 于 获得 串口 DTR 和 RTS 控制 线 的 值 。 如 果 由 于 硬件 不 支持 ，tty 
驱动 程序 无 法 直接 读 取 串口 的 MSR 或 者 MCR 寄存 器 ,将 在 本 地 保存 这 两 个 值 的 副本 。 
许多 USB 到 串口 驱动 程序 必须 实现 这 类 监 挖 操作。 下面 是 当 需 要 在 本 地 保存 这 些 值 的 副 
本 时 ， 实 现 该 函数 的 一 个 例子 : 


static int tiny_tiocmget (struct tty_struct *tty, struct file *file) 
{ 
struct tiny_serial *tiny = tty->driver_data; 


unsigned int result = 0; 

unsigned int msr = tiny->msr; 

unsigned int mcr = tiny->mcr; 

result = ((mcr & MCR_DTR) ? TIOCM DTR : 0) | /* 设置 了 DTR */ 
{{mcr & MCR_RTS) ? TIOCM RTS : 0) | /* 设置 了 RTS */ 
{ {mcr & MCR_LOOP) ? TIOCM_LOOP : 0) | /* 设置 了 LOOP */ 
((msr & MSR_CTS) ? TIOCM CTS : 0) | /* 设置 了 CTS */ 
{ (msr & MSR_CD) ? TIOCM CAR : 0) | /* 设置 7 Carrier detect */ 
{lmsr & MSR_RI) ? TIOCM RI : 0) | /* 设置 了 Ring Indicator */ 
( (msr & MSR_DSR) ? TIOCM DSR : 0);  /* 设置 了 DSR */ 

return result; 
} 


当 tty 核心 要 为 一 个 特定 的 tty 设备 设置 控制 线路 值 时 ， 它 将 调用 tty 驱动 程序 中 的 
tiocmset 函数 。tty 核心 通过 传递 两 个 变量 set 和 clear, 告诉 tty 驱动 程序 设置 成 什么 
值 以 及 清除 哪 一 位 . 这 些 变 量 包含 了 将 要 改变 的 线路 设置 的 一 个 掩 码 。 一 个 ioct! 调 用 从 
不 要 求 tty 驱动 程序 同时 设置 和 清除 某 一 位 ， 因 此 哪个 操作 先进 行 是 无 所 谓 的 。 下 面 是 
该 函数 tty 驱动 程序 实现 的 例子 代码 : 


static int tiny tiocmset (struct tty_struct *tty, struct file *file, 
unsigned int set, unsigned int clear) 
ff 
struct tiny serial *tiny = tty->driver data; 
unsigned int mcr = tiny->mcr; 


if (set & TIOCM_RTS) 
mcr |= MCR_RTS; 
if (Set & TIOCM_DTR) 
mcr |= MCR_RTS; 


if (clear & TIOCM_RTS) 
mcr &= ~MCR_RTS; 

if (clear & TIOCM_DTR) 
mer &= ~MCR_RTS; 


/* 设置 设备 中 新 的 McT 值 */ 
tiny->mcr = mer; 
return 0; 
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ioctls 


当 ioct1{2) 为 一 个 设备 节点 被 调用 时 ，tty 核心 将 调用 tty_drivez 结构 中 的 iocr 回调 
函数 。 如 果 tty 驱动 程序 不 知道 如 何 处 理 传递 给 它 的 ioct! 值 , 它 可 返回 -ENOIOCTLCMD， 
从 而 让 tty 核心 执行 一 个 通用 的 操作 。 


在 2.6 版 本 的 内 核 中 定义 了 70 个 可 以 发 送 给 tty 驱动 程序 的 不 同 的 tty ioct1。 大 多 数 tty 
驱动 程序 并 不 能 处 理 所 有 这 些 ioctl, 而 只 能 处 理 一 小 部 分 常用 的 调用 。 下面 是 一 个 常用 
tty ioct! 的 列表 ， 我 们 说 明了 它们 的 含义 和 如 何 实 现 它们 : 


TIOCSERGETLSR 
获得 这 个 tty 设备 线路 状态 寄存 器 (LSR) 的 值 。 

TIOCGSERIAL 
获得 串 行 线路 信息 。 使 用 该 调用 ， 可 以 从 tty 设备 那里 一 次 获得 许多 串 行 线路 的 信 
息 。 一 些 程序 (比如 setserial 和 dip) 调用 这 个 函数 以 确定 正确 设置 了 波 特 率 ， 并 
且 获 得 tty 驱动 程序 所 控制 的 设备 类 型 一 般 信息 。 调 用 者 传递 进 一 个 指向 
serial_struct 结 构 的 指针 , tty 驱动 程序 要 为 其 填充 正确 的 值 。 下 面 是 这 个 过 程 
的 实现 代码 : 
static int tiny_ioctl(struct tty_struct *tty, struct file *file, 


unsigned int cmd, unsigned long arg) 
{ 

struct tiny_serial *tiny = tty->driver_data; 
if (cmd = = TIOCGSERIAL) { 

struct serial_struct tmp; 

it (!arg) 

return -EFAULT; 
memset (gtmp, 0, sizeof (tmp)); 


tmp .type = tiny->serial .type; 

tmp.line = tiny->serial .line; 

tmp .port = tiny->serial .port; 

tmp.irq = tiny->serial .irqg; 

tmp.flags = ASYNC_SKIP_TEST | ASYNC_AUTO_IRQ; 
tmp .xmit_fifo_size = tiny->serial,xmit_fifo_size; 
tmp .baud_base = tiny->serial.baud_base; 
tmp.close_delay = S*HZ; 

tmp.closing_wait = 30*HZ; 


tmp.custom divisor = tiny->serial.custom divisor; 
tmp ,hub6 = tiny->serial .hubé6; 
tmp.io_type = tiny->serial .io_type; 
if (copy_to_user({void _ .user *)arg, &tmp, sizeof{tmp}}) 
return -EFAULT:; 
return 0; 
} 
return -ENOIOCTLCMD; 
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TIOCSSERIAL 
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设置 品行 线路 信息 。 它 与 TITOCGSERIAL 相 反 , 允许 用 户 同时 设置 tty 设 备 的 串 行 线 
路 状态 。 一 个 指向 serial_struct 结 构 的 指针 传递 给 该 调用 , 里 面包 含 了 tty 设 备 
需要 设置 的 信息 。 如 果 tty 驱动 程序 没有 实现 这 一 调用 , 大 多 数 程序 依然 能 工作 正 


常 。 


TIOCMIWAIT 


等 待 MSR 的 变化 。 用 户 在 非常 规 环境 下 调用 该 功能 ， 该 功能 将 在 内 核 中 休眠 , 直 
到 有 事件 改变 了 tty 设备 的 MSR 寄存 器 为 止 。arg 参数 包含 了 用 户 等 待 的 事件 类 
型 。 它 常 被 用 来 处 于 等 待 状态 直到 状态 连接 有 所 变化 ,然后 报告 数据 已 经 就 绪 并 可 
发 送 给 设备 了 。 
实现 这 个 ioct1 时 一 定 要 但 慎 ， 不 要 使 用 interruptible_sleep_on 调用 ， 因 为 该 调用 
并 不 安全 (使 用 它 将 会 产生 大 量 竞 态 问题 )。 相反， 使 用 wait_queue 可 以 避免 这 一 
问题 。 下 面 是 实现 这 个 ioct! 的 例子 : 


static int tiny_ioctl(struct tty_struct *tty, struct file *file, 
unsigned int cmd, unsigned long arg) 


{ 


struct tiny_serial *tiny = tty->driver_data; 
if (cmd = = TIOCMIWAIT) { 

DECLARE WAITQUEUE (wait, current); 

struct async_icount cnow; 

struct async_icount cprev; 

cprev = tiny->icount; 

while (1} { 


} 
1 


add wait_queue(&tiny->wait, &wait); 
set_current_state (TASK_INTERRUPTIBLE); 
schedule(); 
remove_wait queue (gtiny->wait, &wait}; 


/* 检查 是 否 有 信号 将 代码 唤醒 */ 


if {signal_pending{current)) 
return -ERESTRRTSYS 

cnow = tiny->icount; 

if {cnow.rng = = Cprev.rng && cnow.dsr 
cnow.Gcd = = cprev.dcd && cnow.cts 


return -EIO; /* 没有 变化 => 错误 */ 


BR 咎 


Cprev.dsr && 
cprev .cts) 


if (((arg & TIOCM_RNG) && (cnow.rng != cprev.rng)) || 
((arg & TIOCM DSR) && (cnow.dsr != cprev.dsr)) || 
{({(arg & TIOCM_ CD) && {cnow.dcd != cprev.dcd)) || 
({arg & TIOCM CTS) && (cnow.cts != cprev.cts))} ) { 


return 0; 
} 


cprev = CNow; 


return -ENOIOCTLCMD; 
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如 果 侦 测 出 MSR 寄存器 发 生变 化 , 在 tty 驱动 程序 代码 的 某 处 , 要 使 用 下 面 的 代码 
以 使 驱动 工作 正常 : 
wake_up_interruptible(g&gtp->wait); 

TIOCGICOUNT 
获得 中 断 计数 。 当 用 户 想 知道 发 生 了 多 少 次 串 行 线路 中 断 时 , 使 用 该 调用 。 如果 驱 
动 程序 有 中 其 处 理 的 话 , 则 要 定义 一 个 内 部 的 计数 器 数据 结构 来 记录 这 些 统计 值 ， 
并 在 内 核 调 用 这 个 函数 的 时 候 ， 增 加 正确 的 值 。 
这 个 ioct 调 用 向 内 核 传递 一 个 指向 serial_icounter_struct 结 构 的 指针 , 该 结 
构 应 该 由 tty 驱 动 程序 填写 .该 调用 经 常 与 前 面 的 TIOCMIWAIT iocti 调 用 联合 使 用 。 
如 果 tty 驱 动 程序 运行 时 监控 并 保存 了 所 有 这 些 中 断 ,实现 该 调用 的 代码 非常 简单 : 


static int tiny ioctl{struct tty_struct *tty, struct file *file, 
unsigned int cmd, unsigned long arg) 
{ 
struct tiny_serial *tiny = tty->driver data; 
it (cmd = = TIOCGICOUNT) { 
struct async_icount cnow = tiny->icount; 
struct serial_icounter_struct icount; 
icount .cts = cnow.cts; 


icount.dsr = cnow.dsr; 

icount.rng = cnow.rng; 

icount.dcd = cnow.dcd; 

icount .rx = CnOW.rIX; 

icount .tx = Cnow.tx; 

icount . frame = cnow.frame; 

icount.overrun = cnow.overrun; 

icount .parity = cnow.parity; 

icount.brk = cnow.brk; 

icount .buf_overrun = cnow.buf_overrun; 

if (copy_to_user((void _ _user *)arg, &icount, sizeof (icount)}) 
return ~EFAULT; 

return 0; 


1 
return -ENOIOCTLCMD; 


proc 和 sysfs 对 TTY 设备 的 处 理 


tty 核心 为 任何 tty 驱动 程序 都 提供 了 非常 简单 的 办 法 ， 用 来 维护 在 /proc/tiy/driver 目录 
中 的 一 个 文件 。 如 果 上 驱动 程序 定义 了 read_proc 或 者 write_proc 函数 ， 将 创建 该 文件 。 
接着 任何 对 该 文件 的 读 写 将 被 发 送 给 驱动 程序 。 这 些 函数 的 格式 与 标准 的 /proc 文件 处 
理 函 数 相同 。 
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这 里 有 个 例子 , 它 简单 地 实现 了 read_proc 回 调 国 数 , 只 是 用 来 打印 出 当前 注册 的 端口 : 


static int tiny_read_proc(char *page, char **start, off_t off, int count, 
int *eof, void *data) 
{ 
struct tiny_serial *tiny; 
off_t begin = 0; 
int length = 0; 
4nt. Ds 


length += sprintf (page, "tinyserinfo:1.0 driver:%s\n", DRIVER_VERSION),; 
for {i = 0; i < TINY_TTY_MINORS && length < PAGE_SIZE; ++i) { 
tiny = tiny table[i]; 
if (tiny = = NULL) 
continue; 


length += sprintf (page+length, "%d\n", i); 
if {(length + begin) > {off + count)) 
goto done; 
if ((length + begin) < off) { 
begin += length; 


length = 0; 
} 
} 
*eof = 1; 
done: 
if (off >= (length + begin)) 
return 0; 


*start = page + (off-begin); 
return (count < begin+length-off) ? count :; begin + length-off; 
} 

当 根 据 tty_driver 结构 中 的 TTY_DRIVER_NO_DEVFS 标 志 注 册 tty 驱动 程序 时 , 或 者 
创建 一 个 单独 的 tty 设备 时 , tty 核心 处 理 所 有 的 sysfs 目录 和 设备 的 创建 。 单独 的 目录 总 
是 包含 dev 文 件 ,这 可 以 让 用 户 空间 的 工具 来 判定 分 配给 该 设备 的 主 设备 号 和 次 设备 号 。 
如 果 在 调用 ty_register_device 函数 时 使 用 了 合法 的 device 结构 ， 它 还 将 包含 一 个 设备 
和 驱动 程序 的 符号 连接 。 除 了 这 三 个 文件 外 ， 无 法 为 单独 的 tty 驱动 程序 在 该 目录 下 创 
建新 的 sysfs 文件 。 在 未 来 的 内 核发 行 版 中 ， 这 点 可 能 会 有 所 改变 。 


tty_driver 结构 详解 


tty_driver 结 构 用 来 向 tty 核 心 注册 一 个 tty 驱 动 程序 。 下 面 是 一 个 该 结构 所 有 成 员 以 
及 它们 如 何 被 tty 核心 使 用 的 列表 : 


struct module *owner; 


该 驱动 程序 模块 的 所 有 者 。 


TTY 驱动 程序 559 





int magic; 
该 结构 的 “magic( 幻 数 )" 值 ,通常 被 设置 为 TTY_DRIVER_MAGIC。 在 alloc_tty_driver 
函数 中 被 初始 化 。 

const char *driver name; 
在 /procltry 和 sysfs 中 使 用 ， 表 示 驱 动 程序 的 名 字 。 

Const char *name; 
驱动 程序 节点 的 名 字 。 

int name_base; 
为 创建 设备 名 字 而 使 用 的 开始 编号 。 当 内 核 创建 一 个 分 配给 tty 驱动 程序 的 、 表 示 
特定 tty 设备 的 名 称 时 使 用 。 

Short major; 
驱动 程序 的 主 设备 号 。 

Short minor_start; 
驱动 程序 使 用 的 最 小 次 设备 号 . 通常 设置 成 与 name_base 相 同 的 值 。 该 值 一 般 设 
为 ms 


Short num; 
可 以 分 配给 驱动 程序 次 设备 号 的 个 数 。 如果 驱动 程序 使 用 了 全 部 范围 的 主 设备 号 ， 
该 值 要 被 设置 为 2355。 该 变量 在 alloc_tty_driver 函数 中 被 初始 化 。 


Short type; 
Short subtype; 
描述 向 tty 核心 注册 的 是 何 种 tty 驱动 程序 。subtype 取决 于 type。type 的 值 可 
以 为 : 
TTY_DRIVER_TYPE_SYSTEM 
在 tty 子 系统 内 部 使 用 ， 表 明 其 正在 处 理 一 个 内 部 的 tty 驱动 程序 。subtype 
要 被 设置 为 SYSTEM_TYPE_TTY、SYSTEM_TYPE_CONSOLE、SYSTEM_TYPE_ 
SYSCONS 或 者 是 SYSTEM_mTYPE_SYSPTMX。 这 种 类 型 不 能 被 “常规 ”的 tty 驱动 
程序 使 用 。 
TITY_DRIVER_TYPE_CONSOLE 
只 被 控制 台 驱 动 程序 使 用 。 
TTY_DRIVER_TYPE_SERIRL 
可 以 被 任何 串 行 类 驱动 程序 使 用 ,. subtype 可 以 设置 为 SERIAL_TYPE_NORMAL 
或 者 SERIAL_TYPE_CALLOUT, 这 取决 于 驱动 程序 的 类 型 。 这 是 type 最 常 使 
用 的 设置 之 一 。 
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TTY_DRIVER_TYPE PTY 
被 伪 终 端 接 口 (pty) 所 使 用 。subtype 需要 被 设置 为 PTY_TYPE_MASTER 或 
者 PTY_TYPE_SLAVE。 


struct termios init_termios; 
当 被 创建 时 ， 含 有 初始 值 的 termios 结构 。 

int flags; 
虹 动 程序 标志 位 ， 如 本 章 前 面 所 述 。 

struct proc_dir_entry *proc_entry; 
该 驱动 程序 的 /proc 入 口 结构 体 。 如果 驱动 程序 实现 write_proc 或 者 read_proc, 它 
将 由 tty 核心 创建 。 该 值 不 能 由 tty 驱动 程序 本 身 设置 。 

struct tty_driver *other; 
指向 tty 从 属 设备 驱动 程序 的 指针 。 它 只 能 被 pty 驱动 程序 使 用 ， 而 不 能 被 任何 其 
他 的 tty 驱动 程序 使 用 。 

void *ariver_state; 
tty 驱动 程序 内 部 的 状态 。 只 能 被 pty 驱动 程序 使 用 。 

struct tty_driver *next; 

struct tty.driver *prev; 
链接 变量 。 这 些 变量 被 tty 核心 使 用 , 把 所 有 不 同 的 tty 驱动 程序 链接 起 来 , 并 且 不 
能 被 任何 tty 驱动 程序 访问 。 


tty_operations 结构 详解 


tty_operations 结 构 中 包含 所 有 的 回调 函数 ,它们 被 tty 驱动 程序 设置 ， 并 被 tty 核心 
调用 。 目 前 ， 该 结构 所 包含 的 所 有 国 数 指针 也 包含 在 tty_drivez 结构 中 ， 但 这 很 快 
会 被 替代 ， 因 为 只 能 有 该 结构 的 一 个 实例 存在 。 


int {(*open) (struct tty_struct * tty, struct file * filp); 
open 国 数 。 

void (*close) (struct tty_struct * tty, struct file * filp); 
close 函数 。 


int (*write) {struct tty_struct * tty, const unsigned char *buf, int count); 
write 函数 。 
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void (*put_char) (struct tty_struct *tty, unsigned char ch); 
单字 符 写 人 函数 。 当 要 把 一 个 字符 写 人 设备 时 ,该 函数 被 tty 核心 调用 。 如 果 一 个 
tty 驱动 程序 没有 定义 这 个 函数 ， 当 tty 核心 要 发 送 一 个 字符 时 ， 用 write 函数 作为 
替代 。 

void (*flush_chars) (struct tty_struct *tty); 

void (*wait_until_sent) (struct tty_struct *tty, int timeout); 
该 函数 用 来 向 硬件 发 送 数据 。 

int (*write_room) (struct tty_struct *ttY) ， 
该 函数 用 来 检测 缓冲 区 的 剩余 空间 。 

int (*chars_in_ buffer) (struct tty_struct *tty); 


该 函数 用 来 检测 包含 数据 的 缓冲 区 数量 。 
int {*ioct1) (struct tty struct *tty, struct file * file, unsigned int cmd, 
unsigned long arg) ; 
ioctl 函数 。 当 对 设备 节点 调用 ioct1(2) 时 ， 该 函数 被 tty 核心 调用 。 
void (*set_termios) (struct tty_struct *tty, struct termios * ol1d); 


set_termios 图 数 。 当 设备 的 termios 设置 发 生 改变 时 ,该 函数 被 tty 核心 调用 。 


void (*throttle) (struct tty_struct * tty); 

void (*unthrottle) (struct tty_struct * tty); 

void (*stop) (struct tty_struct *tty}); 

void (*start) (struct tty._struct *tty); 
数据 控制 函数 。 这 些 函 数 用 来 控制 并 防止 tty 核心 的 输入 缓冲 区 溢出 。 当 tty 核 心 的 
输入 缓冲 区 满 的 时 候 , 调用 throtrle 函数 。tty 驱动 程序 将 试图 通知 设备 , 不 要 再 发 
送 更 多 的 字符 了 。 当 tty 核 心 的 输入 缓 促 区 被 清空 时 , 调用 unthrottie 函数 , 使 其 能 
接受 更 多 的 数据 。tty 驱动 程序 将 通知 设备 ， 它 可 以 接收 字符 了 。stop 和 start 函数 
和 throttle 与 unthrottle 函数 相似 ,但 是 它们 表示 : tty 驱动 程序 将 停止 向 设备 发 送 
数据 ， 并 在 未 来 恢复 数据 的 传送 。 

void (*hangup) (struct tty_struct *tty); 
挂 起 函数 。 当 tty 驱动 程序 挂 起 tty 设备 时 , 调用 该 函数 。 此 时 对 任何 特定 硬件 的 操 
纵 应 当 被 挂 起 。 

void (*break_ctl) {struct tty_struct *tty, int state); 
中 断 连接 控制 函数 。 当 tty 驱动 程序 要 打开 或 者 关闭 RS-232 端 口 的 BREAK 线路 状 
态 时 被 调用 。 如 果 状 态 被 设置 为 -1， 则 BREAK 权限 应 该 被 打开 。 如 果 状 态 被 设 
置 为 0，BREAK 权限 应 该 被 关闭 。 如 果 tty 驱动 程序 实现 了 该 函数 ，tty 核心 将 处 
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理 TCSBRK、TCSBRKP、TIOCSBRK 和 TIOCCBRK iocftl。 否 则 这 些 iocti 会 被 发 送 给 
驱动 程序 中 的 ioctl 函数 。 
void {*flush buffer}) (struct tty_struct *tty); 


刷新 缓冲 区 ， 并 丢失 里 面 的 数据 。 
void (*set_ldisc) (struct tty_struct *tty); 
设置 线路 规程 的 函数 。 当 tty 核 心 改变 了 tty 驱动 程序 的 线路 规程 时 调用 它 。 该 函数 
通常 不 能 被 驱动 程序 使 用 ， 也 不 应 该 由 驱动 程序 来 定义 。 
void {*send_xchar) (struct tty_struct *tty, char ch); 
发 送 X 类 型 字符 函数 。 该 函数 用 来 向 tty 设备 发 送 高 优先 级 的 XON 或 者 XOFF 字 
符 。 要 发 送 的 字符 放 在 ch 变量 中 。 
int {*read proc) (char *page, char **start, off_t off, int count, int *eof, 
void *data); 
int (*write proc) (Struct file *file, const char *buffer，unsigned long count， 
void *data); 
/proc 的 read 和 write 图 数 。 
int (*tiocmget) (struct tty_struct *tty, struct file *file); 
获得 特定 tty 设 备 当 前 的 线路 设置 。 如 果 能 成 功 地 从 tty 设 备 获得 设置 , 该 值 将 被 返 
回 给 调用 者 。 
int (*tiocmset}) (struct tty_struct *tty, struct file *file, unsigned int set, 
unsigned int clear); 
为 特定 的 tty 设 备 设置 当前 线路 。 set 和 clear 包 含 了 将 要 被 设置 或 者 清除 的 线路 
设置 。 


tty_struct 结构 详解 


tty 核心 使 用 tty_struct 保 存 当前 特定 tty 端口 的 状态 。 除 了 少数 例外 ， 该 结构 中 几乎 
所 有 的 成 员 都 只 能 被 tty 核心 使 用 。tty 驱动 程序 可 以 使 用 的 成 员 描述 如 下 : 


unsigned long flags; 
当前 tty 设备 的 状态 。 它 是 个 位 操作 变量 ， 可 以 通过 下 面 的 宏 来 访问 该 值 : 
TTY_THROTTLED 
当 驱 动 程序 调用 throtrle 函数 时 设置 该 值 。 只 有 tty 核心 , 而 不 是 tty 驱动 程序 ， 
能 够 设置 该 值 。 
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TTY_IO_ERROR 
当 驱 动 程序 禁止 向 其 读 写 数据 时 设置 该 值 。 如果 一 个 用 户 程序 要 这 么 做 , 那么 
它 将 从 内 核 接收 到 一 个 -EIO 错误 。 通 常 在 关闭 设备 时 设置 该 值 。 
TTY_OTHER_CLOSED 
通知 端口 已 被 关闭 ， 只 能 由 pty 驱动 程序 使 用 。 
TTY_EXCLUSIVE 
由 tty 核心 设置 ， 表 示 端 口 处 于 独占 模式 ， 一 次 只 能 有 一 个 用 户 访问 它 。 
TTY_DEBUG 
在 内 核 中 不 使 用 。 
TTY_DO_WRITE_WAKEUP 
如 果 设 置 该 值 ， 则 允许 调用 线路 规程 的 write_wakeup 函数 。 通常 tty 驱动 程序 
会 同时 调用 wake_wup_interruptible 函数 。 
TTY_PUSH 
仅 在 内 部 被 默认 的 tty 线路 规程 使 用 。 
TTY_CLOSING 
tty 核心 使 用 它 监控 端口 此 时 是 否 正 处 在 关闭 过 程 中 。 
TTY_DONT_FLIP 
被 默认 的 tty 线路 规程 使 用 。 当 其 被 设置 时 ， 用 来 通知 tty 核心 ,不 能 改变 交替 
缓冲 区 。 
TTY_HW_COOK_OUT 
如 果 tty 驱动 程序 设置 它 ， 驱 动 程序 将 通知 线路 规程 : 将 要 “修改 ”发 送 给 它 
的 数据 。 如 果 没 有 被 设置 ， 线 路 规程 将 成 块 地 拷贝 tty 驱动 程序 的 输出 ; 否则 
它 将 评估 修改 线路 设置 的 每 一 个 单独 发 送 的 字 节 。 该 标志 通常 不 能 由 tty 驱动 
程序 设置 。 
TTY_HW_COOK_IN 
几 平 与 设置 驱动 程序 flags 变 量 为 TTY_DRIVER_REAL_RAW 的 情况 相同 。 该 标志 
通常 不 能 由 tty 驱动 程序 设置 。 
TTY_PTY_LOCK 
pty 驱动 程序 使 用 它 来 锁 住 和 解锁 端口 。 
TTY_NO_WRITE_SPLIT 
如 果 设 置 该 位 ，tty 核心 不 能 将 数据 分 割 成 常规 大 小 发 送 给 tty 驱动 程序 。 不 使 
用 该 值 ， 可 以 防止 向 tty 端口 发 送 大 量 数据 的 拒绝 服务 攻击 。 
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struct tty_flip buffer flip; 
tty 设备 的 交替 缓冲 区 。 
struct tty_ldisc ldisc; 
tty 设备 的 线路 规程 。 
wait_queue_head_t write,_wait; 
用 于 tty 写 函数 的 wait_queue。 当 一 个 tty 驱 动 程序 可 以 接收 数据 时 , 应 当 唤醒 该 队 
列 。 
struct termios *termios; 
指向 设置 tty 设备 的 termios 结构 指针 。 
unsigned char stopped:1; 
表示 tty 设备 是 否 已 经 停止 。tty 驱动 程序 可 以 设置 该 值 。 
unsigned char hw_stopped:1; 
表示 tty 设备 硬件 是 否 已 经 停止 。tty 驱动 程序 可 以 设置 该 值 。 
unsigned char low latency:1; 
表示 tty 设 备 是 否 是 个 慢 速 设备 , 是 否 能 接收 高 速 传输 的 数据 。 tty 驱动 程序 可 以 设 
置 该 值 。 
unsigned char closing:1; 
表示 tty 设备 是 否 正在 关闭 端口 。tty 驱动 程序 可 以 设置 该 值 。 
struct tty_dqriver driver; 
控制 tty 设备 的 当前 tty_driver 结构 。 
void *driver_data; 
tty_driver 用 来 把 数据 保存 在 tty 驱动 程序 中 的 指针 。 该 变量 不 能 由 tty 核心 来 改 
变 。 


本 节 提 供 了 一 些 本 章 所 讲述 概念 的 参考 介绍 。 它 还 介绍 了 tty 驱动 程序 所 需要 的 各 个 头 
文件 的 作用 。 当 然 tty_driver 和 tty_device 结 构 中 的 每 一 个 成 员 ， 这 里 就 不 再 重复 
ji 


#include <linux/tty_driver.h> 


包含 tty_driver 结构 定义 ， 以 及 在 该 结构 中 一 些 不 同 标志 位 的 声明 。 
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#include <linux/tty.h> 
该 头 文件 包含 了 tty_struct 结 构 的 定义 以 及 许多 不 同 的 宏 定 义 , 使 得 对 termios 
结构 各 成 员 值 的 访问 更 简单 。 它 还 包含 了 tty 驱动 程序 核心 的 函数 声明 。 
#include <linux/tty_flip.h> 
包含 了 一 些 tty 交替 缓冲 区 inline 函数 的 头 文件 ， 这 些 inline 函数 能 简化 对 交替 缓 
冲 区 结构 的 操作 。 
#include <asm/termios.h> 
特定 硬件 平台 创建 内 核 时 ， 使 用 的 是 包含 termio 结构 定义 的 头 文件 。 
struct tty_driver *alloc_tty_driverl(int lines); 
创建 tty_driver 结构 的 函数 ， 该 结构 以 后 将 被 传递 给 tty_register_driver 和 
tty_unregister_driver 函数 。 


void put_tty_driver (Struct tty_driver *driver); 
如 果 使 用 tty_driver 结 构 向 tty 核 心 的 注册 没有 成 功 ,该 函数 负责 清空 tty_qriver 
结构 。 

void tty_set_operations (struct tty_driver *driver, struct tty_operaticns *op); 
负责 初始 化 结构 tty_driver 中 的 回调 函数 的 函数 。 在 调用 fty_register_driver 前 
必须 调用 它 。 

int tty_register_driver (struct tty_driver *driver); 

int tty_unregister_dqriver(Struct tty_driver *driver); 
从 tty 核心 注册 和 注销 一 个 tty 驱动 程序 的 函数 。 

void tty_register devicel(struct tty_driver *driver, unsigned minor, struct 

device *device); 
void tty unregister device(struct tty_driver *driver, unsigned minor); 


向 tty 核心 注册 和 注销 一 个 tty 设备 的 销 数 。 


void tty_insert_flip_char{struct tty_struct *tty, unsigned char ch, 


char flag); 
将 字符 插入 到 tty 设备 的 交替 缓冲 区 使 用 户 能 够 读 到 的 函数 。 
TTY_NORMAL 
TTY_BREAK 
TTY_FRAME 
TTY_PARITY 


TTY_OVERRUN 
在 tty_insert_ftip_char 函数 中 使 用 的 不 同 的 标志 位 。 
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int tty get_baud rate{struct tty_struct *tty); 
获得 指定 tty 设备 当前 波 特 率 的 函数 。 

void tty_flip. buffer pushl(struct tty_struct *tty); 
把 数据 放 入 当前 交替 缓冲 区 并 传递 给 用 户 的 函数 。 

tty_std termios 


用 常见 的 默认 线路 设置 初始 化 termios 结构 的 变量 。 











参考 书目 


本 书 的 大 部 分 内 容 来 自 内 核 源 代码 ， 而 内 核 源 代码 是 有 关 Linux 内 核 的 最 好 文档 。 


我 们 可 以 从 遍布 全 球 的 上 百 个 FTP 站 点 上 获得 内 核 源 代 码 , 因此 , 我 们 不 打算 在 这 里 列 
出 这 些 站 点 。 


通过 观察 补丁 , 我 们 可 很 好 地 检查 版 本 依赖 性 , 这 些 补丁 通常 位 于 下 载 得 到 整个 源 代码 
的 同一 站 点 。 我 们 还 可 以 通过 repatch 程序 来 检查 单个 文件 在 不 同 内 核 补丁 中 是 如 何 被 
修改 的 ， 该 工具 的 源 代码 可 在 O'Reilly FTP 站 点 上 获得 。 


书籍 


书店 的 书架 上 充斥 着 大 量 技术 书籍 ， 但 是 只 有 少量 书籍 直接 和 Linux 内 核 编程 相关 。 下 
面 是 出 现在 作者 自己 书架 上 的 书籍 清单 


Linux 内 核 相 关 书 籍 


作者 : Daniel P. Bovet 和 Marco Cesate 。 

Understanding the Linux Kernel, Second Edition 

出 版 商 : Sebastopol, CA: O'Reilly Media, Inc. 2003. 
该 书 详细 讲述 了 Linux 内 核 的 设计 和 实现 ， 它 主要 讲述 内 核 使 用 的 算法 , 而 不 是 用 
来 说 明 内 核 API 的 。 虽然 该 书 阐述 的 是 2.4 内 核 ， 但 仍 包含 了 大 量 有 用 信息 。 


作者 : Mel Gorman 。 
Understanding the Linux Virtual Memory Manager 
出 和 版 商 ; Upper Saddle River, NJ: Prentice Hall PTR, 2004. 
希望 更 多 了 解 Linux 虚拟 内 存 子 系统 的 开发 人 员 应 该 阅读 该 书 。 这 本 书 主要 讲述 


2.4 内 核 ,但 同时 包含 2.6 内 核 的 相关 信息 。 
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作者 : Robert Love。 
Linux Kernel Development 
出 版 商 : Indianapolis: Sams Publishing, 2004. 
该 书 描述 了 Linux 内 核 编程 的 许多 方面 ， 每 个 Linux 黑客 都 应 该 拥有 这 本 书 。 
作者 : Karim Yaghmour 
Building Embedded Systems 
出 版 商 : Sebastopol, CA: O'Reilly & Associates, Inc. 2003. 
对 那些 针对 嵌入 式 系统 编写 Linux 代码 的 人 来 讲 ， 该 书 会 非常 有 帮助 。 


Unix 设计 和 内 部 实现 相关 的 书籍 


作者 : Maurice Back 
The Design of the Unix Operating System 
出 版 商 : Upper Saddle River, NJ: Prentice Hall, 1987. 
尽管 该 书 有 点 老 了 ， 但 其 中 涵盖 了 大 量 Unix 实现 相关 的 问题 。 这 个 书 也 是 Linus 
编写 第 一 个 Linux 版 本 时 的 灵感 来 源 。 
作者 : Richard Stevens 
Advanced Programming in the UNIX Environment 
出版 商 : Boston: Addison-Wesley, 1992. 
该 书 非常 详细 地 讲述 了 Unix 系统 调用 , 在 实现 设备 方法 时 , 这 本 书 会 是 好 的 帮手 。 
作者 : Richard Stevens 
Unix Network Programming 
出 版 商 : Upper Saddle River, NJ: Prentice Hall PTR, 1990. 
也 许 是 讲述 Unix 网 络 编程 API 的 最 权威 书籍 。 


Web 站 点 


在 Linux 内 核 开 发 的 快速 变迁 中 最 新 的 信息 总 能 在 线 获 得 。 下 面 是 作者 认为 与 本 书 相关 
的 最 好 站 点 : 


httip://www.kernel.org 

fip:iifip.kernel.org 
本 站 点 是 Linux 内 核 开 发 的 主 站 点 ， 其 中 包含 了 最 新 的 内 核发 行 版 本 以 及 相关 信 
息 。 注意 该 FTP 站 点 的 镜像 遍布 全 球 , 因此 , 应 该 选择 最 近 的 镜像 站 点 下 载 Linux 
源 代码 。 
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htip://ww'w'.bkbits.net 
该 站 点 包含 了 大 车 优秀 内 核 开发 人 员 所 使 用 的 源 代码 仓库 。 特别 是 ， 称 为 “linus” 
的 项 目 中 包含 了 由 Linus Torvalds 维 护 的 内 核 主线 代码 。 如果 读者 对 最 近 添 加 到 内 
核 中 的 补丁 感 兴趣 ， 则 应 该 访问 这 个 站 点 。 

http://www'.tldp.org 
“Linux Documentation Project (Linux 文档 项 目 )” 站 点 拥有 大 量 称 作 “HOWTO” 
的 文档 ， 其 中 一 些 是 技术 性 的 ， 并 涉及 到 一 些 内 核 主题 。 

ttpD:WHwww HUIHKerneldocs 
其 中 包含 有 许多 Aleesandro Rubini 所 著 的 有 关内 核 的 杂志 文章 。 某 些 文章 在 多 年 
以 前 编写 ,但 仍然 有 用 ; 某 些 文章 以 意大利 文 编写 ,但 通常 也 有 英文 翻译 稿 。 

http:/!Iwn.net 


该 新 闻 站 点 是 自助 式 的 , 除了 该 站 点 提供 的 其 他 信息 之 外 , 最 重要 的 是 , 它 提供 了 
定期 的 内 核 开发 相关 报道 ， 以 及 API 的 修改 信息 。 


htip://www.kerneltraffic.org 
“Kernel Traffic” 是 一 个 大 众 性 的 站 点 ， 它 提供 了 每 周 Linux 内 核 开发 邮件 列表 中 
的 讨论 总 结 。 

htip://www.kerneltrap.org/ 


该 站 点 报道 了 一 些 Linux 和 BSD 内 核 社区 的 有 趣 开发 活动 。 


htip:/Iwww.kernelnewbies.org 
该 站 点 面向 新 的 内 核 开发 人 员 。 其 中 包含 有 针对 初学 者 的 内 容 和 FAQ ,而且 还 有 一 
个 IRC 频 道 ， 可 获得 即时 的 帮助 。 

httip:l/janitor.kernelnewbies.org! 
“Linux Kernel Janitor (Linux 内 核 看 门人 )” 项 目 , 新 的 内 核 程序 员 可 通过 该 站 点 
了 解 到 如 何 加 入 内 核 开发 。 该 站 点 介绍 了 内 核 中 大 量 需 要 完成 的 小 的 ,通常 比较 简 
单 的 任务 。 还 有 一 个 邮件 列表 帮助 新 开发 人 员 将 这 些 改 变 加 入 到 主流 内 核 树 中 。 对 
那些 希望 加 入 Linux 内 核 开发 , 但 又 不 知道 从 哪里 人 手 的 人 来 讲 , 这 个 站 点 再 适合 
不 过 了 。 


